• 首页 > 云计算频道 > 大模型

    阿里通义实验室推出新型数字人生成模型

    2025年04月15日 14:40:16   来源:Citnews中文科技资讯

      阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频,实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程,OmniTalker 显著降低了制作成本,同时提升了生成内容的真实感和互动体验,满足了广泛的应用需求。

      OmniTalker 的使用十分简便,用户只需在平台上上传一段参考视频,就能生成与之同步的音频和视频内容。目前,该项目已在魔搭社区和 HuggingFace 等平台开放体验,并提供了多种模板供用户自由使用,完全免费。为了让人们更直观地感受到这一技术的强大,阿里通义实验室展示了几段示例视频,观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的,这让人感到震撼。

      该模型的研发背景源于近年来语言大模型的迅猛发展,虚拟主播和虚拟助手的应用越来越广泛。然而,以往的文本驱动数字人生成研究相对较少,且传统方法通常采用级联流水线的方式,容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构,能够同时从文本和参考视频中生成同步的语音和视频,从而克服了这些技术瓶颈。

      在模型结构方面,OmniTalker 的设计由三大核心部分构成。首先,模型能够提取音频特征和视觉特征,确保两者在时间上的完美同步;其次,采用多模态特征融合模块,提升了音频和视频的整合效果;最后,经过预训练的解码器能够高效将合成的音视频特征转换为原始格式,保证输出的高质量。

      通过实验数据的对比,OmniTalker 在音频生成和视觉效果方面都表现出色,显示出更低的错误率和更高的声音相似度,进一步证明了其在零样本条件下的强大能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。