• 首页 > 云计算频道 > 大模型

    NaturalSpeech 3:可克隆音色和感情的语音合成系统

    2024年03月08日 10:57:52   来源:站长之家

      随着大规模文本到语音(TTS)模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节),这为生成带来了巨大挑战。

      为了解决这一问题,NaturalSpeech3提出了一种创新的TTS系统,采用了新颖的分解扩散模型,以零样本的方式生成自然语音。也就是提供文本和参考音频,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有论文。

    1.jpg

      语音建模的关键创新点之一是使用神经编解码器,包含分解的向量量化(FVQ),将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外,他们还提出了分解的扩散模型,用于根据相应提示生成每个子空间中的属性。实验证明,NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。

      在LibriSpeech基准测试中,NaturalSpeech3的性能明显超越了其他系统。对比结果显示,NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外,通过扩大模型规模和训练数据,NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。

    2.jpg

      除了LibriSpeech基准测试,NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面,相较于其他系统,NaturalSpeech3的平均MCD显著降低,表现出更好的语音合成效果。

      值得注意的是,由于该模型能够以高度相似的说话者模仿真实语音,存在潜在的滥用风险,例如欺骗语音识别或冒充特定说话者。因此,在实验中,假定用户同意成为语音合成的目标说话者。为了防止滥用,研究者呼吁开发强大的合成语音检测模型,并建立一个系统,让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。