首页 > 云计算频道 > 大模型

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

2024年12月30日 09:21:30 来源：AIGC开放社区公众号

　　OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地，分享了一个来自中国的开源大模型——DeepSeek-v3。

　　Karpathy表示，DeepSeek仅用了280万小时的GPU算力，就训练出了比Llama-3405B(使用3080万小时GPU)更强的前沿模型，整体成本节省了11倍左右，将算力发挥到了极致。

　　这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下，使用高质量数据、更好的算法同样能训练出高性能大模型。

　　此外， DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中，性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型，成为目前最强开源大模型之一。

　　国外网友表示，看来限制对中国的芯片供应并没有扼杀他们的进步，反而促进了技术创新。有趣的是，资源限制不仅仅是障碍，它们还能强有力地推动创造力。

　　看了这个网友评论还是挺心酸的，国内被限制AI芯片，无法获得更高的算力，我们靠着智慧、创新精神依然冲破封锁——天行健君子以自强不息!

　　中国人得到“柠檬”后，会榨干它的每一滴汁，然后做出美味的柠檬水。希望美国那些资源受限的实验室也能取得同样的成就。

　　中国即将成为超级人工智能大国。

　　这个模型很出色，但实现这一成就的团队更优秀，人类的创造力真是无穷无尽。

　　DeepSeek为弥补较小模型限制，进行的改进是否也可以应用于更大的模型?我们能否期待在使用10万个 GPU 的集群时也获得类似11倍的能力提升?

　　很想尝试DeepSeek的API，但是从今早开始一直失败的。

　　非常喜欢开源模型，他们迫使西方世界不得不降低价格。

　　Deepseek的团队是一群超有才华的前量化分析师。量化分析师以榨取每一点性能提升而闻名。他们又一次成功了，只是这次是在不同的领域。高智商的人真是世界的福音。

　　他们的训练效率非常疯狂。

　　使用的训练数据与 Llama3405B 大致相同，约为15万亿。但在相同的训练数据下，算力却减少了10倍。

　　哇塞，终于有人破解了训练效率难题。当其他人都在用数十亿美元计算他们的AI预算时，DeepSeek仅用他们的零头就能开发出前沿大模型。看来，仅仅投入更多的GPU并不总是解决问题的办法。

　　这位老哥直接上图片，DeepSeek直接打跑OpenAI、Meta~

　　Deep Seek v3模型简单介绍

　　Deep Seek V3的架构延续了第二代的高效推理和低成本训练策略，主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块。

　　MLA是V3的核心创新之一，主要用于减少推理过程中的内存占用。MLA将键和值压缩为一个潜在向量，并在推理过程中仅缓存该向量，而不是完整的键和值矩阵。

　　MLA的压缩过程通过下投影矩阵和上投影矩阵实现。下投影矩阵将输入向量压缩为潜在向量，上投影矩阵将潜在向量还原为键和值。通过这种方式，MLA在推理过程中仅需缓存潜在向量和分离的键，从而显著减少了内存占用。

　　MLA还对查询进行了低秩压缩，进一步减少了训练过程中的激活内存。所以，MLA是V3极大降低算力的主要原因之一。

　　传统的MoE架构，面对大规模的数据处理任务时，容易出现专家负载不均衡的情况。这种不均衡会导致严重的后果，其中最为突出的就是路由崩溃问题。当某些专家承担了过多的负载，而其他专家则相对空闲时，路由机制可能会因为无法有效分配任务而陷入混乱，进而导致模型无法正常工作。

　　由于专家负载的不平衡，计算资源无法得到合理分配，使得整体计算过程变得缓慢且低效。在处理复杂的语言任务时，需要大量的算力来支持模型的推理和决策过程。

　　而V3对MoE进行了改良，引入了一套先进的动态调整机制，专门用于优化专家负载。在训练过程中，使得MoE会实时监测每个专家的负载情况，通过一系列复杂而精确的算法，根据实际负载动态地调整任务分配。这种动态调整并非简单的平均分配，而是根据专家的实时处理能力和当前任务的特点进行智能分配。

　　例如，当某个专家的负载过高时，模型会自动将一部分任务转移到负载较轻的专家上，确保每个专家都能在合理的负载范围内工作。

　　此外，V3的MoE 还使用了特殊的方法，会为每个专家设置一个动态的负载阈值，当负载超过该阈值时，触发负载调整机制。在调整过程中，模型会综合考虑多个因素，例如，专家的历史处理效率、当前任务的紧急程度以及整个系统的负载均衡情况等，所以，V3的 MoE 既解读了路由崩溃的难题，还将算力发挥到了极致。

　　其实写到这里心里有一个疑问，Deep Seek要是有10万张***，能开发出像o3那样的超强大模型吗?

　　Deep Seek除了开源最新模型之外，他们还提供了免费的在线服务，想尝试的小伙伴可以去体验一下。值得一提的是，还可以使用像o1模型那样的深度思考模式，并且会把整个推理过程全部写出来。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信