首页 > 云计算频道 > 大模型

OpenAI开源BrowseComp，重塑Agent浏览器评测

2025年04月11日 10:38:39 来源：AIGC开放社区公众号

　　今天凌晨2点，OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。

　　这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。

　　但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%，在自主搜索、信息整合、准确性校准方面非常优秀。

　　BrowseComp简单介绍

　　BrowseComp全称为Browsing Competition，包含了1266个很有挑战性问题的数据集，涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。

　　这些问题的难度在于，需要在庞大的互联网空间中搜索，并将这些潜在答案与问题中提出的复杂约束条件相匹配。例如，下面这三个问题就能很好体现BrowseComp的难度。

　　第一个关于足球比赛的问题，要求智能体找出在1990年至1994年期间，哪两支足球队在一场比赛中由巴西裁判执法，共出现四张黄牌(每队两张)，其中三张不是在上半场发出的，并且有四次换人，其中一次是在比赛前25分钟因伤换人。

　　答案是爱尔兰对罗马尼亚。

　　第二个要求识别一个偶尔会打破第四面墙与观众互动的角色，其背景故事涉及得到无私苦行僧的帮助，以幽默著称，并且在20世纪60年代—80年代之间有一部少于50集的电视剧。

　　答案是《塑料人》。

　　第三个要求找出一篇在2023年6月之前发表的研究论文，该论文提到文化传统、科学过程和烹饪创新，并且由三个人共同撰写，其中一人是西孟加拉邦的助理教授，另一人拥有博士学位。

　　答案是《面包制作的基础:面包的科学》。

　　BrowseComp的数据集完全由人类专业数据师收集，其指导原则主要遵循SimpleQA。在创建问题时，需要确保这些问题对于人类来说是极其困难的，数据师通过三个主要检查点来确保问题的挑战性:首先，验证了现有的模型例如，OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research无法解决这些问题;

　　其次，进行了五次简单的谷歌搜索，确保答案不会出现在搜索结果的第一页上;最后，确保这些问题足够困难，以至于另一个数据师在十分钟内无法解决。如果某个问题被解决的频率超过40%，那么创建该问题的数据师就会被要求修改问题。

　　为了确保问题的难度，数据师们会从一个事实开始，然后创建一个反向问题，其中答案难以找到但易于验证。例如，可能会从一个人、事件或物品开始，找到几个具有广阔搜索空间的特征，并从中创建一个问题。

　　这种反向问题的设计方法使得答案虽然难以找到，但一旦找到，却很容易验证。不过这种设计方法也有一个缺点，虽然可以确定提供的参考答案是正确的，但不能确定没有其他答案。

　　为了减少这种可能性，数据师们被要求对问题的内容足够熟悉，以便有信心没有其他有效答案，并在不自信时增加更多标准。

　　测试数据

　　为了衡量BrowseComp数据集的难度，OpenAI邀请了创建问题的同一批人类数据师尝试解答这些问题。这些数据师在解答问题时没有访问正确答案，并且被要求在不使用AI助手的情况下完成。

　　由于一些问题极其困难，OpenAI允许数据师在搜索两小时后标记问题为无法解决并继续下一个问题。结果显示，数据师解决了29.2%的问题，而在解决的问题中，数据师的答案与原始参考答案一致的比例为86.4%。

　　OpenAI还对自己的模型在BrowseComp上进行了综合测试。GPT-4o和GPT-4.5这两个不具备浏览能力的模型在BrowseComp上的表现很差，只有只有0.6%和0.9%。

　　当为GPT-4o启用浏览功能后，其准确率从0.6%提升到了1.9%。虽然这一提升幅度不大，但揭示了一个重要的事实，单纯的浏览能力并不能完全解决BrowseComp中的复杂问题。

　　模型需要能够有效地利用浏览工具，进行战略性搜索和信息筛选。这表明，工具使用能力虽然重要，但如果没有强大的推理能力和对检索到的信息进行有效处理的能力，模型在网络浏览任务中的表现仍然会受到限制。

　　OpenAI o1模型虽然不具备浏览能力，但其推理能力较强，准确率达到了9.9%。这一结果表明，推理能力在网络浏览任务中也起着关键作用。

　　尽管o1无法直接从网络中检索信息，但它可以通过内部知识和推理能力解决一部分问题。这说明，对于一些问题，模型可以通过对已有知识的深度推理来找到答案，而不需要依赖外部信息检索。

　　OpenAI最新发布的Agent模型Deep Research表现的意外好，准确率达到了51.5%。这表明Deep Research能够有效地使用浏览工具，能够对检索到的信息进行深度分析和综合处理。同时具备很强的适应性，面对搜索时遇到的各种信息，能够迅速做出反应，调整自身的搜索策略。

　　此外，OpenAI还发现，Deep Research的表现随着测试时计算资源的增加而提升。这表明，增加计算资源可以显著提高模型在复杂网络浏览任务中的表现。通过使用更多的计算资源，模型可以尝试更多的搜索路径，从而提高找到正确答案的概率。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

2025年5月4日，首届商学院戈壁友谊赛于甘肃省酒泉市圆满举办。在这场4天121公里的戈壁征途中，vivo作为战略合作伙伴，为赛事提供手机、智能穿戴设备及定制影像服务，以技术赋能助力参赛选手与观众记录戈壁之上的热血奔赴，共同探索科技进步、商业文明与自然共生的未来路径。

电竞三芯游戏至尊一加 Ace 5 至尊系列售价2499元起

一加 Ace 5 竞速版搭载「电竞三芯」游戏体验超越同档所有

OpenAI开源BrowseComp，重塑Agent浏览器评测

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

OpenAI开源BrowseComp，重塑Agent浏览器评测

扩展阅读