谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

2024年04月02日 09:40:08 来源：站长之家

　　谷歌的研究人员最近推出了一款名为 VLOGGER 的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音，就可以获得逼真的视频效果。

　　VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构，结合了文本生成图像模型和时空控制，从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试，结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色，同时还能生成丰富的上半身和手势动作。

　　要制作逼真的人物动画视频通常需要大量的人工调整和修补，以确保动作流畅自然。而 VLOGGER 的创新之处在于，其无需针对每个新人物重新训练模型，也不依赖于人脸检测框选区域，直接生成完整目标图像。此外，VLOGGER 还考虑到了现实中复杂的交流场景，如可见躯干、不同身份等因素，这对正确合成有效交流的人物动作至关重要。

　　在技术实现方面，VLOGGER 首先通过 Transformer 神经网络处理音频波形输入，生成一系列3D 面部表情和身体姿势参数，用于控制虚拟人物在视频中的动作。其次，在空间和时间上进行条件控制，生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术，允许模型迭代生成任意长度的视频片段，同时保持时序一致性。为了提高生成效果，VLOGGER 还采用了级联扩散方法，对基础分辨率的视频进行超分辨重建，生成高质量的影像。

　　VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信