云知声-上海师范大学自然人机交互联合实验室获 Blizzard Challenge 2020 国际语音合成大赛第一名

2020年08月17日 14:28:38 来源：中文科技资讯

　　Blizzard Challenge 2020国际语音合成大赛刚刚落下帷幕。由云知声-上海师范大学自然人机交互联合实验室申报的系统在强敌环伺的赛场中突出重围，首次参赛即斩获中文普通话、上海话多项关键指标第一，再一次印证了云知声语音合成技术在业界的领先水准。

　　Blizzard Challenge 国际语音合成大赛是由美国卡耐基-梅隆大学和日本名古屋工业大学联合发起的公开的语音合成技术评测平台，是语音合成领域最具权威性的技术评测比赛。比赛旨在构建一个公开、统一的语音合成技术评测平台，加强世界各地语音合成研究机构之间的技术交流与沟通，共同推动语音技术的快速发展。

　　其作为国际上规模最大、影响力最大的语音合成大赛，至今已成功举办过15届，每年都吸引众多国际一流的科研单位和企业参赛。以往参赛队伍包括 CMU(美国卡耐基-梅隆大学)、Cambridge University(英国剑桥大学)、University of Edinburge(英国爱丁堡大学)、Nitech (日本名古屋工业大学)、科大讯飞、中科院自动化所等国内外语音合成领域的顶尖高手。

　　多指标领跑，强劲的综合实力

　　语音作为人工智能技术发展的三大方向之一，在应用落地过程中，受外部环境影响极大，因此对语音系统模型、引擎等要求极为严苛。从语音合成需求的角度来看，自然度、相似度和可懂度是实际应用中最为核心的三大核心指标。

　　Blizzard Challenge 2020分两个任务：

　　1)中文普通话合成(Hub task)，以高表现力的声音作为合成样本，充分考察参赛者对复杂多变的韵律节奏的把控能力，旨在输出高真实感的合成语音，另外这次比赛还考察参赛者对段落韵律的把控能力;

　　2)上海话合成(Spoke task)，提供的声音数据较少，充分考察参赛者在小样本上的学习能力。

　　本次比赛中，联合实验室团队凭借在合成领域的深厚积累，中文普通话合成自然度 MOS 达到4.2，段落合成所有指标(Overrall impression\pleasantness\speech pauses\stress\intonation\emotion\listening effort)位列第一，并且通过迁移学习，从零开始快速构建了上海话合成系统，合成自然度 MOS 达到4.0，双双领跑;与此同时，普通话相似度、上海话可懂度两项指标亦领跑榜单，充分体现了团队合成技术的综合实力。

　　注：A 为真人声，B-Q 为参赛队伍，云知声-上海师范大学联合实验室队伍代码为 I

　　注：自然度主要评价合成语音是否像真人说话一样自然流畅，相似度主要评价合成语音与目标说话人在音色和韵律上的相似程度，自然度和相似度是合成系统的最重要的两个评测指标，分数越高，说明效果越好。一般大学生发音自然度为4.0分。由于上海话原始数据质量较低，团队为了获得更好的听感，对原始语音进行了升采样率的处理，所以相似度方向会有损伤。

　　本次大赛上，团队采用业界主流的端到端合成技术，并针对端到端合成系统普遍存在的稳定性和效率问题进行了较多优化，在解决稳定性的同时，可以实现高效率的合成。目前，该项技术已经在云知声家居、金融、儿童机器人等业务领域合作伙伴的产品中广泛使用，并取得良好反响。

　　另外，本次比赛涉及大规模高复杂度的模型训练，在这过程充分体现了云知声计算资源优势。实际上，从2012年开始，云知声便开始搭建自身的 DeepFlow 集群，该异构化硬件服务器集群可向上提供密集的计算和存储能力，保证云知声研发团队充足算力的支持。目前该集群规模为1000GPU 以上，计算能力达1亿亿次/秒，在以美国的 IBM Summit 超算平台、我国的神威太湖之光超算平台为代表的全球超算平台算力排名中位列前20位。