• 首页 > 云计算频道 > 大模型

    Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天?

    2024年05月31日 11:57:14   来源:站长之家

      Cartesia 发布了一个名为 Sonic 的低延迟语音生成模型,该模型以其快速的推理速度和超低的延迟引起了广泛关注。Sonic 的延迟仅为135毫秒,能够生成具有逼真情感和表达能力的语音。用户只需提供10秒的录音,Sonic 即可模仿说话者的韵律、语调和声音特征,并且可以调节音调、速度、情感、发音和速度。

      Sonic模型特点:

      超低延迟:模型的延迟仅为135毫秒,这意味着它可以实时生成语音,非常适合聊天应用。

      情感表达:Sonic能够展现出人类的情感和表达能力,使对话更加自然和富有表现力。

      快速模仿:仅需10秒的录音,Sonic就能模仿说话者的韵律、语调和声音特征。

      可调节参数:用户可以调节音调、速度、情感、发音等参数,定制化语音输出。

      Cartesia 的目标是打造能够在任何设备上长期运行的实时智能系统。为此,他们引入了创新的“状态空间模型”(SSM)架构,用于构建下一代基础模型。SSM 模型能够处理任意大小的语境,并且可以原生地实时处理各种形式的模态。Cartesia 的创始人 Albert 和 Karan 在过去四年中共同开发了 SSM,这是一种更高效的 AI 模型构建方法,能够像人类一样流式传输信息。

      在实时对话型 AI 的开发方面,Cartesia 已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的 AI 计算平台,该平台可以解决复杂问题,为用户带来全新的体验。低延迟是构建实时智能的一大挑战,模型需要在接收到输入时立即做出响应。通过新的 SSM 架构,Cartesia 提高了高分辨率模态(如音频和视频)的生成效率和低延迟性能。实验表明,与广泛使用的 Transformer 模型相比,他们的模型在质量、推理速度、吞吐量和延迟方面都有显著改进。

      使用 SSM 架构,Cartesia 训练了 Sonic 语音模型,该模型能以135毫秒的延迟生成高质量、逼真的语音。为了实现低延迟和高吞吐量,他们优化了 SSM 推理系统,从而以更低的成本提供高质量的模型。Sonic 已经发布,并提供了一个 Web Playground 和低延迟 API。用户可以在 Playground 中使用多样化的语音库进行应用程序开发,包括客户支持、娱乐和内容创作,还支持即时克隆和语音设计(如调节速度和情感)。用户也可以通过 API 访问这些功能。

      Cartesia 的下一个目标是在未来一年内实现原生多模态的实时智能,不仅局限于音频领域。他们希望能够实现对任何形式的模态进行即时理解和生成,进一步推动实时智能的发展。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。