阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流式语音合成,首包合成延迟可达到150ms,显著提升了语音合成的响应速度。
在发音准确性方面,CosyVoice2.0相比于前一版本错误率下降了30%至50%,在Seed-TTS测试集的hard测试集上取得了当前最低的字错误率,尤其在合成绕口令、多音字、生僻字方面表现出色。此外,2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性,特别是跨语言语音合成能力相较于1.0版本有了明显提升。
CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强,MOS评测分从5.4提升至5.53,接近某商业化语音合成大模型的评分。同时,2.0版本支持更多细粒度的情感控制和方言口音控制,为用户提供了更丰富的语言选择,包括粤语、四川话、郑州话、天津话和长沙话等主要方言,以及角色扮演功能,如模仿机器人、小猪佩奇的风格讲话等。
CosyVoice2.0的升级,不仅提升了语音合成的技术和体验,也进一步推动了开源社区的发展,鼓励更多的开发者参与到语音处理技术的创新和应用中来。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。