• 首页 > 云计算频道 > 大模型

    谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频

    2024年03月20日 15:08:27   来源:站长之家

      谷歌最近发布了一项名为 “Vlogger” 的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。

      这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。其中,音频波形被用来生成人物的身体控制动作,包括眼神、表情、手势等,使生成的视频看起来自然且生动。该模型训练在一个包含80万个人物视频的大型数据集上完成。

      Vlogger 的突出之处在于其多样性和完整性。与其他方法相比,Vlogger 不需要对每个人进行训练,也不依赖于面部检测和裁剪,生成的视频包括面部、唇部和肢体动作等。此外,Vlogger 还具有视频编辑和翻译等应用,能够让人物闭嘴、闭眼,甚至进行视频翻译。

      虽然谷歌尚未发布具体模型,但通过展示效果和论文,可以看到 Vlogger 在视频生成领域的潜力和优势。然而,一些网友对其生成视频的画质、口型对不上等问题提出了质疑和吐槽。尽管如此,Vlogger 的发布仍引起了业界的广泛关注和讨论。

      谷歌发布的 Vlogger 模型为视频生成领域带来了新的可能性,具备多样性和自然性,为视频编辑和翻译等应用提供了新的解决方案。随着技术的不断进步和完善,相信 Vlogger 将在未来有更广泛的应用和发展。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。