星曜光学宣布4月9日发布新品镜头七工匠推出“云釉白”50mm F1.8全画幅自动对焦镜头智己汽车2025款LS7本月亮相,多项配置升级引关注五年服役期结束:微软Surface Book 3二合一笔记本迎来“退休日”AI超级应用什么时候才能出现?英特尔将“Panther Lake”处理器列为2026年产品,预计今年晚些时候投产一加13T手机本月发布:骁龙8 Elite+6000mAh大电池腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃“拍星星的手机”遇见“星星的孩子”,中兴努比亚手机全系上线自闭症儿童画作壁纸智行 创见新机 | ECS 2025第八届电子通信与半导体数字科技大会全速起航小豚当家亮相2025上海华为智选鸿蒙智联伙伴峰会与AWE展会,引领智能安防新未来飞桨3.0正式发布,支持文心4.5等大模型,跨芯片适配成本降80EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成AR眼镜销量涨6倍!宇树之后,高科技品牌纷纷加码速卖通腾讯元宝更新,多图上传+智能处理一键搞定ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”AI智启生活 第15届深圳国际移动电子展亮点“剧透”亚马逊云科技AI助手Q Developer集成OpenSearch Service 提升运维效率MiniMax Audio推Speech-02语音模型,一次性可以输入20万字符
  • 首页 > 云计算频道 > 大模型

    「教科书级」数据能有多大作用?微软超强小模型引热议

    2023年09月14日 15:09:41   来源:微信公众号机器之心

      本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:小舟。

      随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?

      当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。

      6月,微软发布了一篇题为《Textbooks Are All You Need》的论文,用规模仅为7B token 的「教科书质量」数据训练了一个1.3B 参数的模型 ——phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级,但 phi-1在 HumanEval 的 pass@1上达到了50.6% 的准确率,在 MBPP 上达到了55.5%。

      phi-1证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5technical report》,对高质量「小数据」的潜力做了进一步研究。

      模型简介

      架构

      研究团队使用 phi-1的研究方法,并将研究重点放在自然语言常识推理任务上,创建了拥有1.3B 参数的 Transformer 架构语言模型 phi-1.5。phi-1.5的架构与 phi-1完全相同,有24层,32个头,每个头的维度为64,并使用旋转维度为32的旋转嵌入,上下文长度为2048。

      此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 tokenizer。

      训练数据

      phi-1.5的训练数据是由 phi-1的训练数据(7B token)和新创建的「教科书质量」数据(大约20B token)组成的。其中,新创建的「教科书质量」数据旨在让模型掌握常识推理,研究团队精心挑选了20K 个主题来生成新数据。

      值得注意的是,为了探讨网络数据(LLM 常用)的重要性,该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。

      研究团队表示:创建强大且全面的数据集需要的不仅是原始计算能力,还需要复杂的迭代、有效的主题选择,以及对知识的深入了解,具备这些要素,才能确保数据的质量和多样性。

      实验结果

      对于语言理解任务,该研究在多个数据集(包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU)上评估了一些模型。评估结果如下表3所示,phi-1.5的性能可以媲美5倍大的模型:

      在常识推理基准上的测试结果如下表所示:

      在更复杂的推理任务(例如小学数学和基础编码任务)上 phi-1.5还超越了大多数 LLM:

      研究团队认为,phi-1.5再次证明了高质量「小数据」的力量。

      质疑与讨论

      或许是因为「大模型 + 大数据」的理念太深入人心,这项研究遭到了机器学习社区一些研究人员的质疑,甚至有人怀疑 phi-1.5直接在测试基准数据集上训练了。

      网友 Susan Zhang 进行了一系列验证,并指出:「phi-1.5能够对 GSM8K 数据集中的原问题给出完全正确的回答,但只要稍微修改一下格式(例如换行),phi-1.5就不会回答了。」

      还有修改问题中的数据,phi-1.5在解答问题的过程中就会出现「幻觉」。例如,在一个点餐问题中,只修改了「披萨的价格」,phi-1.5的解答就出现了错误。

      并且,phi-1.5似乎「记住了」最终答案,即使在修改数据的情况下该答案已经是错误的。

      对此,论文作者之一 Ronen Eldan 很快给出了回应,针对上述网友测试出现的问题给出解释和反驳:

      但该网友再次阐明其观点:测试说明 phi-1.5的回答对 prompt 的格式是非常「脆弱」的,并对作者的回应提出质疑:

      论文第一作者 Yuanzhi Li 回应道:「由于没有进行任何指令微调和对齐工作,phi-1.5在稳健性上的确不如 GPT-4。但『脆弱』并不是正确的术语,事实上,对于任何模型,pass@k 准确率都会比 pass@1高得多(所以模型正确就是偶然的)。」

      看到这些质疑与讨论,网友们直呼:「最简单的回应方式就是直接公开合成数据集。」

      对此,你怎么看?

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。