首页 > 产经新闻频道 > 业界新闻

云从科技语音技术刷新多项世界纪录

2021年04月15日 09:56:41 来源：中文科技资讯

　　让AI听得出、听得清，听得懂，成为每个人的真正“知音”，是云从人机协同战略让机器从知音到知心迈出的重要一步。

　　近日，云从科技语音技术取得多项重大突破，在语音识别、语义纠错、深度学习降噪等领域刷新多项国际、国内语音识别权威纪录，超越亚马逊、搜狗等企业创下的此前最好成绩，夯实业界领先的技术地位。

　　此次云从创新提出的新模型，对应语音技术不同角度的突破，包含巨大的应用价值，推动技术朝更智能地“听”迈进了一大步：

　　语义纠错技术：在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上，将字错率(Character Error Rate，CER)第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。

　　这意味着让AI“听得懂”：字错率降低代表使语音更准确地转换文字，纠正语义的错误。

　　语音识别技术：刷新Aishell纪录，将字错率降低到4.34%，较过去最好成绩降低了8%;云从团队提出的新模型，巧妙融合了语音识别和说话人识别，提高识别率的同时，极大提升了在不同说话人场景下的鲁棒性。

　　这意味着让AI“听得出”：将每个人同“指纹”一样独有的“声纹”识别出来，指标提升意味着更精准识别出说话者。

　　深度学习降噪模型：在国际顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果。

　　这意味着让AI“听得清”：针对在嘈杂环境去除噪声，使语音更清晰。

　　在语音技术高度发展的基础上，每提升1个百分点的准确率，都如同征服一座高山。此次云从一举在三项语音技术上取得新突破、新模型，不仅展现出深厚的科研基础与强大创新能力，同时也彰显出云从技术实力的全面性与综合性。近年来语音技术已经广泛应用于人们的生活，但大多是依托智能语音设备在室内安静环境下的单人交互，云从团队提出的多个创新模型，对于突破业界瓶颈，攻克嘈杂环境、多人对话等复杂应用难题，具有重大意义。

　　在人工智能第二浪背景下，全链技术形成行业价值闭环、AI工程学的重要性日益突显。云从科技在视觉、语音等技术频频突破，再次夯实核心技术闭环实力，为行业打造更全面、更有价值的智能化方案，为每个人构筑更流程灵活的交互体验。

　　创新研究模型直击技术难点

　　此前云从的语音技术已取得刷新全球最大开源语音识别数据集Librispeech纪录、发表多篇顶会论文、发表多篇新型发明专利等成绩。尽管近年来整个人工智能语音领域有了快速发展，但目前常见语音交互场景多是在安静环境下的单人交互，在日常应用仍有诸多问题亟待突破：例如在多人场景的语音、噪声混合中，如何追踪并识别至少一个声音、正常在嘈杂环境下正常交流，也就是“鸡尾酒会问题”，仍是研究者们致力解决的难题。

　　针对这些技术难点，云从在语音识别、语义纠错、深度学习降噪等多个方向上，创新性提出新模型，并在多个数据集上刷新最优成绩。

　　语义纠错：

　　针对常见的语法纠错、拼写纠错与语音识别系统转写的错误分布差异较大、传统模型不适合直接使用等问题，云从科技提出一种基于BART预训练模型的语义纠错技术方案，不仅可以对数据中常见的拼写错误进行纠正，还可以对一些常识错误、语法错误，甚至一些需要推理的错误进行纠正。

　　在云从科研团队一万小时语音数据的实验中，纠错模型可以将基于3gram WFST解码结果的错字率相对降低21.7%，取得与RNN重打分相近的效果。在RNN重打分的基础上使用纠错，可以进一步取得10.3%的CER相对降低。

　　部分纠错示例如下：

　　语音识别：

　　云从科研团队结合声纹识别x-vector embedding以及自研multi-stream TDNNF结构的XmasNet，刷新Aishell的纪录，在测试集Aishell-test上CER指标提高到4.34%，相比于SOTA，提升了8%。这种方法结合了最新的说话人识别技术，进一步提高了语音识别在口音环境下的识别率。

　　值得一提的是，本次云从团队提出新模型结构，在训练数据固定(原始178小时音频)的情况下，仅通过优化模型结构，取得识别率的提升。

　　该结构巧妙融合了语音识别和说话人识别，提高识别率的同时，极大提升了在不同说话人场景下的鲁棒性。

　　x-vector embedding(上)以及XmasNet网络结构(下)

　　深度学习降噪：

　　云从科研团队提出一种基于U-Net和注意力机制attention的深度学习神经网络模型CARN模型，在DNS Challenge比赛数据集上取得了目前最好的结果。

　　该数据集中，亚马逊PoCoNet模型、西北工业大学和搜狗合作的DCCRN模型等在具有混响的仿真场景和真实场景下，只能得到中等品质的音频;相比之下，云从CARN模型在各类场景下均有优秀表现，无论是没有混响的仿真场景(no_reverb)、还是具有混响的仿真场景和真实场景下，都能大幅减少音频中的噪音，处理取得清晰的优质音频，提升音频的清晰度。