• 首页 > 云计算频道 > 大模型

    OpenAI发布MMMLU数据集:更广、更深评估AI模型,支持简体中文

    2024年09月24日 15:32:17   来源:IT之家

      科技媒体 marktechpost 昨日(9 月 23 日)发布博文,报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集。

      背景

      随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。

      OpenAI 决定推出 MMMLU 数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LLMs)在各种任务中的性能,从而应对这一挑战。

      MMMLU 数据集简介

      MMMLU 数据集包含一系列问题,涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研究领域中需要常识、推理、解决问题和理解能力的任务中的表现。

      MMMLU 的创建反映了 OpenAI 对测量模型实际能力的关注,尤其是在 NLP 研究中代表性不足的语言,纳入多种语言可确保模型在使用英语时有效,并能胜任全球使用的其他语言。

      MMMLU 数据集核心

      涵盖范围广

      MMMLU 数据集是同类基准中最广泛的基准之一,涵盖了从高中问题到高级专业和学术知识的多种任务。

      研究人员和开发人员在利用 MMMLU 数据集过程中,可以调用不同难度的问题,测试大预言模型在人文、科学和技术主题下的表现。

      更考验深层认知

      这些问题都经过精心策划,以确保对模型的测试不局限于表面理解,而是深入研究更深层次的认知能力,包括批判性推理、解释和跨领域解决问题的能力。

      多语言支持

      MMMLU 数据集的另一个值得注意的特点是它的多语言范围,支持简体中文。该数据集支持多种语言,可以进行跨语言的综合评估。

      然而,以英语数据训练的模型在使用其他语言时往往需要帮助来保持准确性和连贯性。MMMLU 数据集提供了一个框架,用于测试传统上在 NLP 研究中代表性不足的语言模型,从而弥补了这一差距。

      MMMLU 数据集意义

      MMMLU 的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和文化包容性的方法来评估模型,确保它们在高资源和低资源语言中都能表现出色。

      MMMLU 的多任务特性突破了现有基准的界限,它可以评估同一模型在不同任务中的表现,从类似琐事的事实回忆到复杂的推理和问题解决。这样就能更细致地了解模型在不同领域的优缺点。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    TCL实业荣获IFA2024多项大奖,展示全球科技创新力量

    近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。