DeepSeek的MLA架构：大模型迁移的新突破

2025年03月07日 17:28:25 来源：AIbase基地

　　在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络(Multi-head Latent Attention，MLA)架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构，而无需重新从头开始训练。

　　目前，主流大模型普遍基于标准的多头注意力机制(MHA)及其变种，这些模型在推理成本上相较于 MLA 存在显著劣势。因此，研究团队提出了 MHA2MLA 框架，旨在通过两个关键步骤 —— 部分 RoPE 保留和键值联合表示低秩近似，成功实现 MHA/GQA 架构向 MLA 的迁移。

　　在 MHA2MLA 的实施过程中，团队首先通过部分 RoPE 微调策略，将位置编码从大维度中分离，保留了与位置相关的少量维度，解决了 MLA 和 RoPE 之间的冲突。接着，通过奇异值分解(SVD)技术对键值向量进行低秩近似，以最大化保留预训练知识，同时显著减少缓存空间。实验结果表明，仅需使用预训练数据的0.3% 至0.6% 进行微调，便能基本恢复迁移过程中的性能损失。

　　在与其他高效推理技术结合后，例如4-bit KV 缓存量化，Llama2-7B 模型的 KV 缓存减少了92.19%，而性能损失仅为0.5%。这一成果展现了 MHA2MLA 框架在压缩技术上的优越兼容性，同时保持了模型的推理能力和长上下文处理能力，为部署资源高效的大语言模型提供了一条新的可行路径。

　　然而，研究团队也指出，实验受到硬件条件的限制，尚未覆盖如 Llama3等需进行128K 长上下文微调的模型。未来的研究将聚焦于扩展至更多模型架构，并结合参数高效微调策略，进一步降低迁移过程中的参数更新规模。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信