ROG×初音未来跨界联动燃爆二次元!全新外设惊艳亮相信仰集结!2025 ROG DAY狂欢来袭,超能DIY好物爆燃登场ROG召开2025新品发布会,两款新品电竞显示器荣耀登场!信仰玩家征集令!长沙 2025 ROG DAY 粉丝嘉年华盛大开启冲破次元壁!初音未来梦幻联名丨华硕ROG DAY暨2025新品发布会解决多地协同难题!半导体行业本地部署ERP实现安全远程访问!先人一步购新品就来京东3C数码上新季 OPPO Find X8s系列享限量好礼三选一天玑AI开发套件2.0全面支持DeepSeek四大关键技术,强劲推理让AI智慧再进化百度移动生态正在经历一场开放性变革首次连发三款直屏旗舰,OPPO的动作传递了一些行业信号钉钉等待乔布斯时刻国补叠加以旧换新补贴真香预警!京东入手Apple产品还可享12期免息新报告显示西班牙俱乐部在本土青训球员留用方面处于领先地位AI应用突围,中小企业的新周期已至Canva发布全新AI功能:涵盖AI助手、指令生成应用、动态表格等Krea发布全新工具Krea Stage:从图片到3D场景:一键构建沉浸式世界12种营养分时补充 孕产妇专用营养美好蕴育润康守护孕期营养华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream7B,打破文本生成格局Pika推出全新AI视频功能Pika Twists,可以操控编辑视频中的任何角色或物体ChatGPT记忆力升级解锁完整记忆,OpenAI或下周发布新模型GPT-4.1
  • 首页 > 云计算频道 > 大模型

    OpenAI开源BrowseComp,重塑Agent浏览器评测

    2025年04月11日 10:38:39   来源:AIGC开放社区公众号

      今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。

      这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。

      但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

      BrowseComp简单介绍

      BrowseComp全称为Browsing Competition,包含了1266个很有挑战性问题的数据集,涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。

      这些问题的难度在于,需要在庞大的互联网空间中搜索,并将这些潜在答案与问题中提出的复杂约束条件相匹配。例如,下面这三个问题就能很好体现BrowseComp的难度。

      第一个关于足球比赛的问题,要求智能体找出在1990年至1994年期间,哪两支足球队在一场比赛中由巴西裁判执法,共出现四张黄牌(每队两张),其中三张不是在上半场发出的,并且有四次换人,其中一次是在比赛前25分钟因伤换人。

      答案是爱尔兰对罗马尼亚。

      第二个要求识别一个偶尔会打破第四面墙与观众互动的角色,其背景故事涉及得到无私苦行僧的帮助,以幽默著称,并且在20世纪60年代—80年代之间有一部少于50集的电视剧。

      答案是《塑料人》。

      第三个要求找出一篇在2023年6月之前发表的研究论文,该论文提到文化传统、科学过程和烹饪创新,并且由三个人共同撰写,其中一人是西孟加拉邦的助理教授,另一人拥有博士学位。

      答案是《面包制作的基础:面包的科学》。

      BrowseComp的数据集完全由人类专业数据师收集,其指导原则主要遵循SimpleQA。在创建问题时,需要确保这些问题对于人类来说是极其困难的,数据师通过三个主要检查点来确保问题的挑战性:首先,验证了现有的模型例如,OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research无法解决这些问题;

      其次,进行了五次简单的谷歌搜索,确保答案不会出现在搜索结果的第一页上;最后,确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。如果某个问题被解决的频率超过40%,那么创建该问题的数据师就会被要求修改问题。

      为了确保问题的难度,数据师们会从一个事实开始,然后创建一个反向问题,其中答案难以找到但易于验证。例如,可能会从一个人、事件或物品开始,找到几个具有广阔搜索空间的特征,并从中创建一个问题。

      这种反向问题的设计方法使得答案虽然难以找到,但一旦找到,却很容易验证。不过这种设计方法也有一个缺点,虽然可以确定提供的参考答案是正确的,但不能确定没有其他答案。

      为了减少这种可能性,数据师们被要求对问题的内容足够熟悉,以便有信心没有其他有效答案,并在不自信时增加更多标准。

      测试数据

      为了衡量BrowseComp数据集的难度,OpenAI邀请了创建问题的同一批人类数据师尝试解答这些问题。这些数据师在解答问题时没有访问正确答案,并且被要求在不使用AI助手的情况下完成。

      由于一些问题极其困难,OpenAI允许数据师在搜索两小时后标记问题为无法解决并继续下一个问题。结果显示,数据师解决了29.2%的问题,而在解决的问题中,数据师的答案与原始参考答案一致的比例为86.4%。

      OpenAI还对自己的模型在BrowseComp上进行了综合测试。GPT-4o和GPT-4.5这两个不具备浏览能力的模型在BrowseComp上的表现很差,只有只有0.6%和0.9%。

      当为GPT-4o启用浏览功能后,其准确率从0.6%提升到了1.9%。虽然这一提升幅度不大,但揭示了一个重要的事实,单纯的浏览能力并不能完全解决BrowseComp中的复杂问题。

      模型需要能够有效地利用浏览工具,进行战略性搜索和信息筛选。这表明,工具使用能力虽然重要,但如果没有强大的推理能力和对检索到的信息进行有效处理的能力,模型在网络浏览任务中的表现仍然会受到限制。

      OpenAI o1模型虽然不具备浏览能力,但其推理能力较强,准确率达到了9.9%。这一结果表明,推理能力在网络浏览任务中也起着关键作用。

      尽管o1无法直接从网络中检索信息,但它可以通过内部知识和推理能力解决一部分问题。这说明,对于一些问题,模型可以通过对已有知识的深度推理来找到答案,而不需要依赖外部信息检索。

      OpenAI最新发布的Agent模型Deep Research表现的意外好,准确率达到了51.5%。这表明Deep Research能够有效地使用浏览工具,能够对检索到的信息进行深度分析和综合处理。同时具备很强的适应性,面对搜索时遇到的各种信息,能够迅速做出反应,调整自身的搜索策略。

      此外,OpenAI还发现,Deep Research的表现随着测试时计算资源的增加而提升。这表明,增加计算资源可以显著提高模型在复杂网络浏览任务中的表现。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从而提高找到正确答案的概率。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。