英伟达新AI模型Fugatto可以生成从未有过的声音

2024年12月04日 11:32:04 小刀来源：极客网

　　英伟达已经成为AI时代的领头羊，除了卖GPU，它自己也在开发大语言模型。最近，英伟达开发的Fugatto模型曝光，它将最新的AI训练方案与技术融合，可以以之前未曾见过的方式处理音乐、语音及其它声音，创造出从未有过的声音。

　　语音生成AI模型没有什么稀奇的，市场上已经有很多，输入文本提示词就可以合成语音和音乐，但Fugatto似乎比之前的语音AI模型更进一步。

　　目前Fugatto还没有公测，英伟达只是通过网站公布一些语音生成样本。从样本看，Fugatto可以调节音频特征，生成一些奇怪的声音，比如让萨克斯声音像狗叫，让人声变得像水下发出的声音。老实说，合成的声音并不怎么动听，但很有趣。

　　英伟达研究人员Rafael Valle说：“我们想创建一个模型，它可以像人一样理解声音、生成声音。”

　　从技术角度看，Fugatto实际上是一个生成Transformer模型，它是基于英伟达之前研究的技术开发的，比如语音模型、声音理解技术。Fugatto拥有25亿个参数，它是用英伟达DGX系统开发的。

　　英伟达在论文中谈到Fugatto开发的难点。以当前的技术，根据音频和语言之间有意义的联系建立一个数据库十分困难。现在的标准语言模型可以从文本数据中推断出不同的指令，但如果没有具体指引，模型很难从音频中总结出特征。

　　最终，英伟达用LLM(大语言模型)生成一个Python脚本，它可以创建大量基于模板、格式自由的指令，这些指令可以描述不同的声音“个性”，比如标准、年轻、30多岁、专业人士等特征，然后还可以给声音的“个性”增加其它指令，比如绝对指令(合成一个快乐的声音)和相对指令(增强声音的快乐度)。

　　在训练数据中，AI会学着理解声音的不同特征，然后将不同的特征结合起来，生成全新的声音，也就是我们人类之前没有听过的声音。

　　论文谈到的技术相当复杂。总之，英伟达开发了所谓的ComposableART系统，它合成的声音让小提琴声音像孩子的笑声，让五弦琴的声音像音乐家在风雨中演奏，让工厂机器发出金属般的痛苦尖叫。

　　Fugatto混合声音的能力给人留下深刻印象，要知道，声音数据来自不同的开源平台数据集，声音之间有很大不同，将它们完美混合不是一件易事。

　　还有一点值得表扬，Fugatto将每个单独的音频特征视为可调谐的连续体。比如，Fugatto可以将吉它声和流水声混合，让吉它声权重高一些或者让流水声权重高一些，合成的声音是完全不同的。又例如，Fugatto可以让说话时的法语口音重一些或者轻一些，可以改变语音片断中的悲伤程度。

　　Fugatto还有其它一些功能，这些功能之前的模型也有，比如改变语音中的情绪，从音乐中分离出人声。

　　英伟达希望Fugatto能成为声音艺术家的新工具，它的本意并不是取代创作者。NVIDIA初创加速计划 ( NVIDIA Inception) 的参与者、作曲家、制作人Ido Zmishlany说：“音乐的历史实际上就是科技的历史。电吉它带来了摇滚，当采样器出现，嘻哈随即诞生。有了AI，我们可以书写音乐的下一篇章。我们有了一种新的乐器，一种制作音乐的新工具，这太令人兴奋了。”

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信