半导体跨界潮,谁在跟风,谁在下棋?Nikola,一个千亿造车独角兽破产了消息称谷歌将因违反反垄断规则而遭欧盟指控,恐被处以高额罚款透明美学再进化,Nothing Phone(3a)系列手机宣传物料曝光2025 年春运今日迎来最后一天,全国铁路已累计发送旅客 4.99 亿人次国内通信运营商首次:中国联通通过数字货币桥实现跨境支付微软 Outlook“保存邮件到 OneNote”功能 3 月谢幕,“发送到 OneNote”接棒全国首个:浙江率先布局低空经济“下乡”,目标到年底建成 200 个乡村无人机起降枢纽拨打客服电话强制等待 15 分钟,惠普欧洲试点遭强烈反对后取消OPPO一键问屏 / 全能搜基于阶跃星辰Step系列多模态模型打造京东&创维联合定制JD100 Mini电视发布 下单享免费送装一体服务我国成功发射中星 10R 卫星中科闻歌发布“智川”企业智能体平台1.0、“优雅”音视频大模型平台1.5,领先技术加速AI普惠落地这个周末,在最懂开发者的城市邂逅最懂开发者的算力平台DDN推出 Infinia 2.0对象存储 加速AI数据处理速度全部免费!百度文心智能体平台已全面接入DeepSeek模型灯塔云系统:开启劳务派遣管理4.0时代超2671万名消费者申请手机等数码产品购新补贴 用国补买手机上京东皇家马德里对阵赫罗纳:不乏进球与高水平竞技的足球现场OpenAI宣布面向多个国家推出AI代理 Operator
  • 首页 > 云计算频道 > 大模型

    阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!

    2024年09月19日 09:32:01   来源:AIGC开放社区公众号

      今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

      这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

      如果不想进行繁琐的部署,阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,帮助你快速开发或集成生成式AI功能。

      下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

      Qwen2.5系列性能测试

      本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

      MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

      虽然Qwen2.5只有720亿参数,但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;全面超过了Mistral最新开源的Large-V2指令微调模型,成为目前最强大参数的开源模型之一。

      即便是没有进行指令微调的基础模型,其性能同样超过Llama-3-405B。

      阿里开放API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

      此外,Qwen2.5系列首次引入了140亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。

      指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct,与闭源模型GPT-4o mini相比,只有三项测试略低其他基准测试全部超过

      自阿里发布CodeQwen1.5以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。

      本次发布的Qwen2.5-Coder-7B指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

    1.jpg

      前不久阿里首次发布了数学模型Qwen2-Math,本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过CoT、PoT和 TIR的能力来加强其推理能力。

      其中,Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

      其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

      Qwen2.5系列简单介绍

      Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似,Qwen2.5语言模型支持高达128K tokens,并能生成最多8K tokens的内容。

      与Qwen-2相比,Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens,超过了Meta最新开源Llama-3.1的15万亿,成为目前训练数据最多的开源模型。

      知识能力显著增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1。Qwen2.5在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

      Qwen2.5能够生成更符合人类偏好的响应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2,MT-Bench分数从9.12提高到9.35。

      数学能力获得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

      此外,Qwen2.5在指令跟踪、生成长文本(从1k增加到超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。