第十四代英特尔@酷睿™ 处理器:性能飞跃,重塑计算新体验iPhone 16 618购机指南:京东国补覆盖更广 同款机型比天猫便宜400元京东618百万份“AI加油包”助你提升职场效率 1分钱即可获得心仪大奖用AI告别每日2小时繁琐工作 京东618推出百万份AI加油包助用户全面提效羊毛党带路!在京东618用“京补合约”下单iPhone 16 Pro只要83元!5月30日晚8点来京东618用“京补合约”下单 超6000元手机也能享国补华为nova 14 Pro仅需3249元 来京东618购手机享国补加倍补壳牌挚美漆面保护膜,全面守护座驾,助力美好出行打造“全球一朵云”,广汽迈入出海3.0时代Nothing Phone(3)将推全新灯语设计,定位首款真旗舰奔驰召回部分进口G级汽车 涉及ESP系统软件问题算力互联网试验网落地纪实:技术突破、标准引领与生态协同纤薄背后 看三星是如何在Galaxy S25 Edge上实现突破的深圳海辰储能柜获TÜV南德CE-LVD认证掠夺者·圣盾7000震撼发布,搭载RTX 5090突破电竞性能新纪元!新股速递 |容大合众(9881.HK)启动招股 百惠担任联席账簿管理人及联席牵头经办人华为发布准万亿参数MoE模型盘古Ultra及训练细节部分地区国补2000元+晒单返E卡 ROG电竞本新品618开门红送礼重新思考数据中心架构,推进AI的规模化落地ROG×《燕云十六声》江湖争锋挑战赛热血启幕!创意执笔,赢取ROG枪神9 Plus联名神装
  • 首页 > 云计算频道 > 大模型

    AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!

    2024年06月19日 09:59:18   来源:头号AI玩家公众号

      Runway前脚刚发布Gen-3Alpha,Google后脚就跟了个王炸。

      北京时间6月18日凌晨,Google Deepmind发布了视频生成音频(Video-to-Audio,V2A)技术的进展,可以为视频创建戏剧性的背景音乐逼真的音效,甚至是人物之间的对话

      V2A技术支持为AI生成视频“配乐”,Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造

      有不少网友表示,这下终于可以给用Luma生成的meme视频配上声音了!

      从Google Deepmind官网发布的Blog上看,V2A技术会采用视频像素文本提示来生成与底层视频同步的音频波形。

      首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与视频数据相结合。

      X网友纷纷表示太赞了,但就是有一个小小小小的问题,和同样是凌晨发布的Runway的视频生成模型Gen-3Alpha一样,这又是一个大家都用不上的超赞模型,到底啥时候开源让咱们试试水!

      先不急,我们先尝尝官方发布的Demo咸淡!

      Google认为,AI视频生成模型飞速发展,但市面上的大多数模型,不管是Sora、Luma,还是刚刚发布的Gen-3Alpha,都只能生成无声视频。

      而Google所研发的V2A技术能够使AI视频进入“有声时代”,进一步推动AI在视听方面的完善与发展。

      从Demo视频来看,其效果真的挺丝滑的,怪不得Google“夸下海口”!

      比如这个,画面中一个人从前走到后,可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

      【提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete】

      诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

      【提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking】

      【提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

      【提示:汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding, car engine throttling, angelic electronic music】

      Google还强调,V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”,是因为该技术可以理解原始像素,因而哪怕不输入文本提示,只要用户提供视频,该技术也可以为其“配乐”

      例如,下面视频中的吉他声和自行车声是在没有任何提示的情况下合成的。

      V2A技术也可以生成人物对话,比如下面视频中角色所说的台词,“这只火鸡看起来棒极了,我好饿啊(this turkey looks amazing, I'm so hungry)”。

      不过从视频中看,人物唇形与台词并不完全匹配,因为视频模型不会生成与转录文本相匹配的嘴部动作,Google也承认这一部分仍在研究完善当中。

      此外,V2A技术还支持为视频输入生成无限数量的音轨,用户可以选择定义“正提示”来引导生成所需的声音,或定义“负提示”来引导远离不需要的声音。

      这种灵活性使用户能够更好地控制V2A的音频输出,从而可以快速尝试不同的音频输出,并选择最佳匹配。

      下面三个视频是Google放出的Demo,我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素,不过好像不太明显

      【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻感。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

      【提示:空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

      【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

      虽然该技术还未开源,但从现有的Demo来看,待其开源之时,必将又掀起AI视频圈一阵大风浪。

      届时我们估计能看到AI圈“大混战”——Runway的Gen-3Alpha刚生成一个视频,隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢,用户们已经等不及给它配上声音了。

      AI视频圈,到底要“卷”成什么样?!

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。