突破叙事尺度 刻画极致人物 迷雾剧场《漂白》1月17日上线爱奇艺1月20日手机数码国补落地京东 超千万国补商品等你挑选超千万货品已备足 1月20日来京东购手机享国家补贴每件最高500元拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办斑马技术《2025全球消费者调查报告》:注重防损管理,增强顾客体验终端创企Nothing拟募资1亿美元 一加联合创始人创立恩智浦获欧洲投资银行 10 亿欧元贷款,用于在欧多国研发创新工作入手松下ZS99相机新品首选京东 售价2998元可先人一步入手1月20日打开京东搜索「1」 3C数码“疯狂星期一”爆款低至1元当代年轻人用上AI,从夸克开始消息称iPhone SE 4将有白色和黑色 预计3月份推出全球PC市场迎来温和复苏:2024年出货量增长1.3%,联想和苹果表现亮眼比亚迪已在韩国推出Atto 3 预计2月中旬开始交付发展新质生产力 赋能健康产品力 ——劲牌有限公司2024年度科技责任(成果)报告美光减产后 SK海力士也计划将上半年NAND闪存产量削减一成赵明离职信曝光:离开荣耀是人生中最艰难的决定消息称京东服饰换帅,阿里前高管担任负责人这年头,谁在互联网上学这么“硬核”的AI?开战2025,本地生活商家「另辟蹊径」年底Mini LED电视到底怎么选?认准这些新技术不踩雷!
  • 首页 > 云计算频道 > 大模型

    图片生成精准动态视频,阿里、港大推出新模型LivePhoto

    2023年12月13日 10:19:41   来源:AIGC开放社区公众号

      阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。

      与传统方法不同的是,LivePhoto在开源文生图模型Stable Diffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。

      研究人员将LivePhoto与主流模型Gen-2、Pikalabs进行了比较,经过多轮测试效果非常卓越。

      论文地址:https://arxiv.org/abs/2312.02928

      从论文来看,LivePhoto模型主要由三大模块组成:首先是图像内容控制模块,通过多种策略提供强大的像素级和语义级图像指导,从而确保生成序列中每一帧的视觉内容与原图保持高度一致。

      其次是运动建模模块,基于知名开源模型Stable Diffusion,仅训练插入的特定组件来捕捉帧间隐含的运动模式。

      第三个是额外控制指令模块,是一种运动强度估计和文本重新加权的方法,可有效减少文本到运动映射中的歧义,使得所生成的图像动画视频更好地遵循文本指令描述。

      图像内容控制

      为了实现生成内容与参考图像保持一致,LivePhoto使用了三种图像指导方法:1)参考潜在表示拼接通过VAE编码器提取参考图像的潜在表示,并直接拼接到模型输入中,实现像素级指导。

      2)内容编码器,使用了预训练的DINOv2网络提取参考图像的图像块表示,并通过新增的交叉注意力层注入到UNet网络中,提供全局内容约束。

      3)先验反向映射,在推理阶段,将参考潜在表示的反向映射混合到高斯噪声中,为细节生成提供先验知识。

      此外,LivePhoto冻结了Stable Diffusion模型的部分功能,仅训练插入了其中的可学习运动模块,用来构建不同帧间的运动联系。相当于每个UNet组件中插入了一个运动模块,采用了类似AnimateDiff的结构。

      额外指令

      通过图像内容控制和运动模块,基本可以勾勒出大致的运动视频内容。但仍然无法精准控制运动方式,这是因为文本中同时包含内容和运动两个方面的描述,而参考图像起主导作用,容易造成内容描述对运动描述的抑制。

      为解决这一问题,开发人员提出了两种额外的指令:

      1)运动强度,考虑到文本指令本身很难准确表达运动特征, LivePhoto引入了一个1-10的值来参数化运动强度。这一超参数既可于训练时促进文本与运动的匹配,也为用户提供了方便的推理调节接口。

      2)文本加权,为区分文本中与内容和运动相关的部分, LivePhoto设计了文本加权功能。

      其目标是检测文本中与运动相关的维度,并对其进行加权放大。这可以减少内容描述带来的干扰,从而增强运动控制能力。

      实验结果也证明,在运动强度指导和文本加权的帮助下,LivePhoto展现出了十分出色的零样本视频动画生成性能。

      可以处理各种图像输入,同时遵循文本中对运动的描述生成视频。例如,不同的人或动物正在进行的动作,或者虚拟出文本所描写的场景。

      此外,用户还可以通过简单调节运动强度的数值,自由定制视频中运动的方式。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。