中国移动“基于通信大模型的自智网络解决方案”荣获GSMA GLOMO双奖Windows 11 市场份额仍落后,微软力推智能应用控制功能吸引升级OPPO Find X8 Ultra 旗舰手机及多款IoT产品即将发布三星“AI 订阅俱乐部”在韩国市场表现亮眼,高端电视销量显著提升苹果智能推送功能遇挑战:误判“标题党”通知为紧急提醒RTX PRO 6000专业显卡渲染图曝光:96GB显存、600W功耗DNA证实:一直到罗马时代 大多数欧洲人都是黑皮肤阿里QwQ-32B API接口服务上线国家超算互联网:零门槛部署 免费100万Tokens沪东中华:全球首艘 24000TEU 级双燃料集装箱船“两合一”试航凯旋我国前两月出口规模再创新高,集成电路同比增长 11.91%国家“八纵八横”重要组成,包银高铁内蒙古段桥梁、隧道实现全线贯通何小鹏:3 年淘汰赛、3-5 年晋级赛,中国新能源车企最终可能只剩 7 家以内麦家谈DeepSeek对文学创作的冲击:可能比 95% 的人写得好,但问题在于没法暴露人的局限性网易数智回应“关闭公有云”传闻:公司业务正常运营,蜂巢只是其中一个模块渝厦高铁重庆段进入联调联试阶段,设计时速 350 公里打破世界纪录:国内首台可变径扩孔式竖井掘进机完成掘进任务,单日最快 16.8 米董明珠再回应“格力专卖店”改名“董明珠健康家”:以个人名誉作保将“信任流量”转化为“品质认知”游戏改编剧《最后生还者》第二季最新预告放出,4 月 13 日开播谷歌悄然调整 AI 团队网页,删除“多样性”与“公平性”表述央视曝光摄影爱好者滥用无人机拍摄鸟类,致国家一级保护动物东方白鹳被绞断双腿死亡
  • 首页 > 云计算频道 > 大模型

    DeepSeek的MLA架构:大模型迁移的新突破

    2025年03月07日 17:28:25   来源:AIbase基地

      在人工智能领域,DeepSeek-R1的推出引发了广泛关注,这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络(Multi-head Latent Attention,MLA)架构,借助低秩压缩技术显著降低了训练与推理的成本,甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成,目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构,而无需重新从头开始训练。

      目前,主流大模型普遍基于标准的多头注意力机制(MHA)及其变种,这些模型在推理成本上相较于 MLA 存在显著劣势。因此,研究团队提出了 MHA2MLA 框架,旨在通过两个关键步骤 —— 部分 RoPE 保留和键值联合表示低秩近似,成功实现 MHA/GQA 架构向 MLA 的迁移。

      在 MHA2MLA 的实施过程中,团队首先通过部分 RoPE 微调策略,将位置编码从大维度中分离,保留了与位置相关的少量维度,解决了 MLA 和 RoPE 之间的冲突。接着,通过奇异值分解(SVD)技术对键值向量进行低秩近似,以最大化保留预训练知识,同时显著减少缓存空间。实验结果表明,仅需使用预训练数据的0.3% 至0.6% 进行微调,便能基本恢复迁移过程中的性能损失。

      在与其他高效推理技术结合后,例如4-bit KV 缓存量化,Llama2-7B 模型的 KV 缓存减少了92.19%,而性能损失仅为0.5%。这一成果展现了 MHA2MLA 框架在压缩技术上的优越兼容性,同时保持了模型的推理能力和长上下文处理能力,为部署资源高效的大语言模型提供了一条新的可行路径。

      然而,研究团队也指出,实验受到硬件条件的限制,尚未覆盖如 Llama3等需进行128K 长上下文微调的模型。未来的研究将聚焦于扩展至更多模型架构,并结合参数高效微调策略,进一步降低迁移过程中的参数更新规模。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。