今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。
这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。
但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。
BrowseComp简单介绍
BrowseComp全称为Browsing Competition,包含了1266个很有挑战性问题的数据集,涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等众多领域。
这些问题的难度在于,需要在庞大的互联网空间中搜索,并将这些潜在答案与问题中提出的复杂约束条件相匹配。例如,下面这三个问题就能很好体现BrowseComp的难度。
第一个关于足球比赛的问题,要求智能体找出在1990年至1994年期间,哪两支足球队在一场比赛中由巴西裁判执法,共出现四张黄牌(每队两张),其中三张不是在上半场发出的,并且有四次换人,其中一次是在比赛前25分钟因伤换人。
答案是爱尔兰对罗马尼亚。
第二个要求识别一个偶尔会打破第四面墙与观众互动的角色,其背景故事涉及得到无私苦行僧的帮助,以幽默著称,并且在20世纪60年代—80年代之间有一部少于50集的电视剧。
答案是《塑料人》。
第三个要求找出一篇在2023年6月之前发表的研究论文,该论文提到文化传统、科学过程和烹饪创新,并且由三个人共同撰写,其中一人是西孟加拉邦的助理教授,另一人拥有博士学位。
答案是《面包制作的基础:面包的科学》。
BrowseComp的数据集完全由人类专业数据师收集,其指导原则主要遵循SimpleQA。在创建问题时,需要确保这些问题对于人类来说是极其困难的,数据师通过三个主要检查点来确保问题的挑战性:首先,验证了现有的模型例如,OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research无法解决这些问题;
其次,进行了五次简单的谷歌搜索,确保答案不会出现在搜索结果的第一页上;最后,确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。如果某个问题被解决的频率超过40%,那么创建该问题的数据师就会被要求修改问题。
为了确保问题的难度,数据师们会从一个事实开始,然后创建一个反向问题,其中答案难以找到但易于验证。例如,可能会从一个人、事件或物品开始,找到几个具有广阔搜索空间的特征,并从中创建一个问题。
这种反向问题的设计方法使得答案虽然难以找到,但一旦找到,却很容易验证。不过这种设计方法也有一个缺点,虽然可以确定提供的参考答案是正确的,但不能确定没有其他答案。
为了减少这种可能性,数据师们被要求对问题的内容足够熟悉,以便有信心没有其他有效答案,并在不自信时增加更多标准。
测试数据
为了衡量BrowseComp数据集的难度,OpenAI邀请了创建问题的同一批人类数据师尝试解答这些问题。这些数据师在解答问题时没有访问正确答案,并且被要求在不使用AI助手的情况下完成。
由于一些问题极其困难,OpenAI允许数据师在搜索两小时后标记问题为无法解决并继续下一个问题。结果显示,数据师解决了29.2%的问题,而在解决的问题中,数据师的答案与原始参考答案一致的比例为86.4%。
OpenAI还对自己的模型在BrowseComp上进行了综合测试。GPT-4o和GPT-4.5这两个不具备浏览能力的模型在BrowseComp上的表现很差,只有只有0.6%和0.9%。
当为GPT-4o启用浏览功能后,其准确率从0.6%提升到了1.9%。虽然这一提升幅度不大,但揭示了一个重要的事实,单纯的浏览能力并不能完全解决BrowseComp中的复杂问题。
模型需要能够有效地利用浏览工具,进行战略性搜索和信息筛选。这表明,工具使用能力虽然重要,但如果没有强大的推理能力和对检索到的信息进行有效处理的能力,模型在网络浏览任务中的表现仍然会受到限制。
OpenAI o1模型虽然不具备浏览能力,但其推理能力较强,准确率达到了9.9%。这一结果表明,推理能力在网络浏览任务中也起着关键作用。
尽管o1无法直接从网络中检索信息,但它可以通过内部知识和推理能力解决一部分问题。这说明,对于一些问题,模型可以通过对已有知识的深度推理来找到答案,而不需要依赖外部信息检索。
OpenAI最新发布的Agent模型Deep Research表现的意外好,准确率达到了51.5%。这表明Deep Research能够有效地使用浏览工具,能够对检索到的信息进行深度分析和综合处理。同时具备很强的适应性,面对搜索时遇到的各种信息,能够迅速做出反应,调整自身的搜索策略。
此外,OpenAI还发现,Deep Research的表现随着测试时计算资源的增加而提升。这表明,增加计算资源可以显著提高模型在复杂网络浏览任务中的表现。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从而提高找到正确答案的概率。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。