Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

2024年05月31日 11:57:14 来源：站长之家

　　Cartesia 发布了一个名为 Sonic 的低延迟语音生成模型，该模型以其快速的推理速度和超低的延迟引起了广泛关注。Sonic 的延迟仅为135毫秒，能够生成具有逼真情感和表达能力的语音。用户只需提供10秒的录音，Sonic 即可模仿说话者的韵律、语调和声音特征，并且可以调节音调、速度、情感、发音和速度。

　　Sonic模型特点:

　　超低延迟:模型的延迟仅为135毫秒，这意味着它可以实时生成语音，非常适合聊天应用。

　　情感表达:Sonic能够展现出人类的情感和表达能力，使对话更加自然和富有表现力。

　　快速模仿:仅需10秒的录音，Sonic就能模仿说话者的韵律、语调和声音特征。

　　可调节参数:用户可以调节音调、速度、情感、发音等参数，定制化语音输出。

　　Cartesia 的目标是打造能够在任何设备上长期运行的实时智能系统。为此，他们引入了创新的“状态空间模型”(SSM)架构，用于构建下一代基础模型。SSM 模型能够处理任意大小的语境，并且可以原生地实时处理各种形式的模态。Cartesia 的创始人 Albert 和 Karan 在过去四年中共同开发了 SSM，这是一种更高效的 AI 模型构建方法，能够像人类一样流式传输信息。

　　在实时对话型 AI 的开发方面，Cartesia 已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的 AI 计算平台，该平台可以解决复杂问题，为用户带来全新的体验。低延迟是构建实时智能的一大挑战，模型需要在接收到输入时立即做出响应。通过新的 SSM 架构，Cartesia 提高了高分辨率模态(如音频和视频)的生成效率和低延迟性能。实验表明，与广泛使用的 Transformer 模型相比，他们的模型在质量、推理速度、吞吐量和延迟方面都有显著改进。

　　使用 SSM 架构，Cartesia 训练了 Sonic 语音模型，该模型能以135毫秒的延迟生成高质量、逼真的语音。为了实现低延迟和高吞吐量，他们优化了 SSM 推理系统，从而以更低的成本提供高质量的模型。Sonic 已经发布，并提供了一个 Web Playground 和低延迟 API。用户可以在 Playground 中使用多样化的语音库进行应用程序开发，包括客户支持、娱乐和内容创作，还支持即时克隆和语音设计(如调节速度和情感)。用户也可以通过 API 访问这些功能。

　　Cartesia 的下一个目标是在未来一年内实现原生多模态的实时智能，不仅局限于音频领域。他们希望能够实现对任何形式的模态进行即时理解和生成，进一步推动实时智能的发展。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信