• 首页 > 云计算频道 > 大模型

    豆包实时语音大模型正式上线!端到端语音对话 情商智商双高

    2025年01月20日 18:30:56   来源:快科技

      今日,字节跳动豆包大模型团队宣布,豆包实时语音大模型今日正式上线,并在豆包App全量开放,将App升级至7.2.0版本即可体验。

      据介绍,豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。

      相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性,号称情商智商双高”。

      该模型是真正意义上的端到端语音系统,主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。

      豆包表示,依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力,呈现出接近真人的语音表达水准。

      通过学习角色语音和情感特点,模型具备强大讲故事能力,在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感。

      联合建模后,模型涌现出超出预期的指令理解、声音扮演和声音控制能力。

      比如,目前模型部分方言和口音,主要源自于Pretrain阶段数据泛化,而非针对性训练。

      豆包实时语音大模型输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等),同时赋予模型实时联网功能,能根据问题,动态获取最新信息,对时效问题给到精准、及时的回应。

      从豆包发布的技术展示来看,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。

      豆包大模型团队也坦言,现阶段的模型主要支持中文,其他语种尚未较好支持,中文范围内,模型也仅支持小部分方言和地方口音的理解和表达。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。