• 首页 > 云计算频道 > 大模型

    上海人工智能实验室发布首个 AI 高考评测结果:数学全部不及格

    2024年06月20日 09:03:10   来源:Donews

      据IT之家报道,上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。

      据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。

      评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

      该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。

      具体来看,InternLM2-20B-WQX 取得了数学单科的最高分,超越包括 GPT-4o 在内的所有模型。

      此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见,此次评测没有纳入商用闭源模型。

      这 6 个模型分别是:

      Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。

      Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。

      GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。

      InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。

      Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。

      Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

      语数外三科加起来的满分为 420 分,此次高考测试结果显示,阿里通义千问 2-72B 排名第一,为 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能实验室的书生・浦语 2.0 排名第三,三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾,仅拿下 185 分。

      数学是所有大模型的短板,平均得分率仅有 36%,参与测试的大模型无一及格。

      此外,阅卷教师也对大模型表现进行了整体分析,为模型能力提升策略提供参考。

      语文

      模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。

      大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。

      多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

      数学

      大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

      大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

      英语

      英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。

      大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。