豆包实时语音大模型正式上线！端到端语音对话情商智商双高

2025年01月20日 18:30:56 来源：快科技

　　今日，字节跳动豆包大模型团队宣布，豆包实时语音大模型今日正式上线，并在豆包App全量开放，将App升级至7.2.0版本即可体验。

　　据介绍，豆包实时语音大模型是一款语音理解和生成一体化的模型，实现了端到端语音对话。

　　相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性，号称情商智商双高”。

　　该模型是真正意义上的端到端语音系统，主要面向中文语境和场景(可进行英语对话，暂不支持多语种)。

　　豆包表示，依托于语音和语义联合建模，豆包实时语音大模型拥有丰富表现力，呈现出接近真人的语音表达水准。

　　通过学习角色语音和情感特点，模型具备强大讲故事能力，在对话或内容演绎中，可生动切换成不同角色/状态，配合不同情绪表达，增强交互趣味性和沉浸感。

　　联合建模后，模型涌现出超出预期的指令理解、声音扮演和声音控制能力。

　　比如，目前模型部分方言和口音，主要源自于Pretrain阶段数据泛化，而非针对性训练。

　　豆包实时语音大模型输出语音表现力高度逼近真人，包括类人的副语言特征（如语气词、停顿思考等），同时赋予模型实时联网功能，能根据问题，动态获取最新信息，对时效问题给到精准、及时的回应。

　　从豆包发布的技术展示来看，该模型语音语气自然度和情绪饱满度逼近真人，对话风格更加拟人，情感理解更加深刻，对用户的情绪做到较好承接。

　　豆包大模型团队也坦言，现阶段的模型主要支持中文，其他语种尚未较好支持，中文范围内，模型也仅支持小部分方言和地方口音的理解和表达。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。