外媒：ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

2025年04月21日 09:47:25 来源：站长之家

　　最近，OpenAI 发布了他们最新的推理型 AI 模型 “o3” 和 “o4 mini” ，它们虽然具备了比上一代更强大的性能，但 AI 幻觉却变得更严重了 —— AI 幻觉是指生成型人工智能编造出实际并不存在的信息，并将其当作事实呈现的现象。

　　据海外 IT 专业媒体 TechCrunch 报道称，OpenAI 新发布的 o3 模型在 33% 的问题上出现了 AI 幻觉。这一数值是 o1(16%)和 o3 mini(14.8%)的两倍以上。而 o4 mini 模型更加严重 —— 该模型的幻觉率竟然高达 48%，表现出比包括 GPT-4o 在内的现有模型更加不稳定的状态。这一结论是该媒体引援 OpenAI 的 PersonQA 基准测试评估结果而报道的。

　　OpenAI 在 16 日以 “首款能够将图像融入思考过程的模型” 的口号，隆重介绍并推出这些AI模型。官方解释称，这些模型不仅仅是单纯地识别图像，还能在推理过程中运用视觉信息本身 —— 即 o3 和 o4 mini 模型具备了分析用户上传的图画、图表、图形等内容，以及处理模糊或旋转图像的能力。

　　在性能方面，在与编码相关的基准测试 SWE 测试中，o3 的得分为 69.1%，o4 mini的得分为 68.1%，不仅超过了之前的模型 o3 mini (49.3%)，也高于竞争模型 Claude3.7Sonnet 模型(62.3%)的数值。然而，尽管有这些技术上的进步，AI幻觉出现率却反而比以前有所增加。一直以来，每当有新模型推出时，AI 幻觉的问题都在逐步得到改善，没曾想，OpenAI 这次的新模型却来了个“反其道而行”。

　　OpenAI 尚未对这一现象的原因给出明确的解释。在技术报告中，分析称：“随着模型需要应对比以前更多的用户请求，不仅是正确的结果，产生错误结果的情况似乎也在增加。” 接着表示，为了查明 AI 幻觉现象增加的确切原因，“需要进行更多的研究”。

　　人工智能行业认为，此次事件可能会给推理型模型的可靠性带来更多的质疑。特别是在法律、会计、税务等要求高度准确性的行业领域，如果 AI 幻觉问题得不到解决，相关引入推理型 AI 模型的可能性便会减小。

　　OpenAI 表示：“在所有问题领域完全消除‘幻觉’都是一项持续的研究课题”，并表示 “我们正在继续努力提高准确性和可靠性” 。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信