比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

2024年05月28日 11:39:12 来源：站长之家

　　最近，对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足，使生成的视频缺乏生动性和可控性。

　　因此，北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法，通过自然语言界面来控制虚拟形象的情感和面部动作，从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括：

　　通过自然语言输入控制头像的情绪和面部动作。

　　利用一个自动注释管道构建训练数据集，使得头像可以根据文本指令和音频进行生成。

　　生成的头像能够准确同步口型，表情自然且生动。

　　相比于现有方法，在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

　　InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦，并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中，通过迭代去噪高斯噪声来获取预测的动作潜变量，并结合用户提供的肖像，使用 VAE 的解码器生成最终的视频。