OpenAI深夜发布3个全新的语音模型，一手实测都在这了

2025年03月21日 10:04:53 来源：数字生命卡兹克公众号

　　OpenAI最近总是喜欢搞突袭。

　　昨晚11点的时候突然发了一个预告，4秒钟的音频的大概意思，就是太平洋时间10点我们发个产品。

　　然后就在北京时间凌晨1点，开了一场直播，发了一些新玩意。

　　总结一下就是:

　　2个比Whisper更好的语音转文本的STT模型:gpt-4o-transcribe和gpt-4o-mini-transcribe，1个文本生成语音的TTS模型 :gpt-4o-mini-tts。这些模型都提供了API的接入方式。没了。

　　一个一个说。

　　1. STT模型:gpt-4o-transcribe

　　gpt-4o-transcribe和gpt-4o-mini-transcribe说是两个，其实也就是一个了，后者是前者的小参数版。

　　这个模型的作用跟当年的Whisper是一样的，跟大家在剪映里用的一键生成字幕的作用也是一样的，就是把一段语音，转成对应的正确的文本。

　　我们一般把他们称为，STT(Speech-to-Text)模型。

　　这个模型的核心，就是就是识别文字的准确率有多高，我相信大家在用剪映生成字幕的时候，一定会出现很多文字识别错误的情况，所以评判一个ASR模型效果咋样，就看正确率。

　　他们的跑分是这样的。

　　这个是OpenAI的几个STT模型在FLEURS数据集上的词错率(Word Error Rate， WER)的对比表现。纵坐标表示词错率，越低代表模型的转录准确性越高;横坐标代表不同语言。

　　词错率的意思就是用于衡量语音识别系统的准确性，它通过计算模型转录文本与人工参考文本之间的错误比例来得出，错得越少，WER越低，模型的表现也就越好。

　　中文是从左往右数第五个，cmn，可以看到突出了一个小山丘，错误率一下子就都上来了，比隔壁几个都要高一些，中文还是难。。。

　　最后那几个一柱擎天的语言都比较小众，比如bn是孟加拉语、mr是马拉地与、最高的那个ml是马拉雅拉姆语。。。

　　他们除了跟自己比外，又放了一个跟别人家模型相比的图。

　　Gemini是google的，scribe是Anthropic的，在对比的这些里面，确实达到了SOTA，但是不知道没比的模型里面，有没有比OpenAI更强的。

　　我自己也做了一下实测，把我的两个口播视频去识别了一下，识别出来的效果在此，大家可以对比一下。标红的就是识别错误的地方。

　　其实都大差不差，这么一看，GPT-4o-mini-transcribe的性价比感觉非常突出。

　　GPT-4o-transcribe这个系列的两个模型，有一个蛮不错的特点，就是会自动清噪和去除非主线人物的语音识别。

　　比如这个案例。

　　这个片段是剪辑完的成片，所以有音乐，甚至在19秒以后，还有BGM里面的别人唱歌的声音，这些其实都是噪音，GPT-4o-transcribe几乎全部剔除了，在整个转录里，我几乎没看到什么错误，除了把我的名字，卡兹克识别成了卡斯克。。。

　　我又试了一段粤语的，效果居然还可以，大致的好像是对的，就是细节这块我不太能验证了，有懂粤语的朋友可以看一下。

　　最后价格这块提一下。

　　gpt-4o-transcribe是每分钟大概$0.006，也就是人民币0.04元/分钟;

　　gpt-4o-mini-transcribe是每分钟大概$0.003，也就是人民币0.02元/分钟.

　　整体不算贵了。

　　2. TTS模型:gpt-4o-mini-tts

　　OpenAI的一个新的TTS模型。

　　在英语效果和声音上，听了下，还算不错，不过毕竟这是国内，所以其实我更关注的是中文的生成效果。

　　我随手跑了一个，就，你们听听这个效果。。。

　　openai-fm-coral-sincere，数字生命卡兹克，8秒

　　情绪什么的其实讲道理，还可以的，就是这个中文发音，真的一股子大佐味，这到底用的什么数据集啊。。。

　　11Labs也有这个问题，中文根本没法听，太违和了。

　　对比一下海螺(现在产品也更名叫Minimax了)，他们的Audio生成出来的同文字的中文是这个效果。

　　Minimax-1，数字生命卡兹克，8秒

　　在发音上，根本就不是一个级别的，中国人的语音模型，还是得看中国制造。。。

　　英语上，感觉很纯正，日语发音上，也感觉有点怪怪的。。。

　　openai-fm-coral-cowboy (1)，数字生命卡兹克，16秒

　　这次OpenAI给gpt-4o-mini-tts做了一个小小的功能演示网站，约等于免费给大家用了。

　　还挺有意思的。

　　网址在此:https://www.openai.fm/

　　最上面的VOICE是固定的音色，音色你是没办法克隆也没办法自定义的，所以只能选这些。

　　下面的VIBE比较有意思，大概的意思就是情绪基调，有N多的预设模板，同时你也可以用Prompt自己捏。

　　OpenAI给了官方模板，是这个样子的:

　　Voice:High-energy，upbeat，andencouraging，projectingenthusiasmandmotivation.Punctuation:Short，punchysentenceswithstrategicpausestomaintainexcitementandclarity.Delivery:Fast-pacedanddynamic，withrisingintonationtobuildmomentumandkeepengagementhigh.Phrasing:Action-orientedanddirect，usingmotivationalcuestopushparticipantsforward.Tone:Positive，energetic，andempowering，creatinganatmosphereofencouragementandachievement.

　　翻译过来就是:

　　声音（Voice）:充满活力、热情洋溢且积极鼓励，声音要能传递出热情与动力。

　　标点（Punctuation）:使用短小有力的句子，并通过适当停顿，保持兴奋感和清晰度。

　　语速（Delivery）:语速较快、富有变化，并用升调增加节奏感与吸引力，确保听众持续投入。

　　措辞（Phrasing）:直接明了、强调行动，使用鼓励性的语言来推动听众积极参与。

　　语调（Tone）:积极向上、充满能量与力量感，营造鼓励与成功的氛围。

　　所以我们是能看到，有5个可以自己去捏的参数。你可以随便自定义。

　　但是这玩意，说实话写起来也非常麻烦，我试了一下后，不如直接交给AI，这玩意谁特么手搓啊= =

　　几秒钟，一段定制好的prompt就OK了，我们扔到之前的网页里。

　　再用一段我很喜欢的《反叛的鲁鲁修》里面的台词去试一下。

　　openai-fm-sage-audio，数字生命卡兹克，20秒

　　大家自己判别吧。

　　在价格上，gpt-4o-mini-tts是$0.015/分钟，大概1毛钱人名币1分钟，说实话，已经几乎是最低价了。

　　11labs的价格大概是每分钟1块3人民币。

　　Minimax已经算是价格屠夫了，大概也要1毛8人民币1分钟。

　　写在最后

　　这就是OpenAI今天的发布了。

　　如果你是开发者，想知道怎么接入，一切都在他们的API文档里。

　　这次还蛮方便的，10行代码就可以接了。

　　STT模型gpt-4o-mini-transcribe我还是蛮推荐用的，实测下来感觉性价比最高，差距不是很大，价格还低一半。

　　TTS模型gpt-4o-mini-tts如果你是做英文场景的语音，还是值得一用的，毕竟便宜是真便宜，效果也还不错，中文的话不推荐用，因为没法用，中文我还是无脑推荐Minimax的Audio模块，不仅中文效果好，性价比高，海外版还可以语音克隆。

　　很久以前我也首发安利过一次，现在依然有效:30秒就能完美复刻你的声音，这就是当今最强的中文AI语音克隆。

　　以上就是这一次OpenAI的全部发布了，熬夜肝完，为大家带来最新鲜的实测。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

OpenAI深夜发布3个全新的语音模型，一手实测都在这了

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

OpenAI深夜发布3个全新的语音模型，一手实测都在这了

扩展阅读