• 首页 > 云计算频道 > 大模型

    OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!

    2024年12月30日 09:21:30   来源:AIGC开放社区公众号

      OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。

      Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。

      这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。

      此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。

      国外网友表示,看来限制对中国的芯片供应并没有扼杀他们的进步,反而促进了技术创新。有趣的是,资源限制不仅仅是障碍,它们还能强有力地推动创造力。

      看了这个网友评论还是挺心酸的,国内被限制AI芯片,无法获得更高的算力,我们靠着智慧、创新精神依然冲破封锁——天行健 君子以自强不息!

      中国人得到“柠檬”后,会榨干它的每一滴汁,然后做出美味的柠檬水。希望美国那些资源受限的实验室也能取得同样的成就。

      中国即将成为超级人工智能大国。

      这个模型很出色,但实现这一成就的团队更优秀,人类的创造力真是无穷无尽。

      DeepSeek为弥补较小模型限制,进行的改进是否也可以应用于更大的模型?我们能否期待在使用10万个 GPU 的集群时也获得类似11倍的能力提升?

      很想尝试DeepSeek的API,但是从今早开始一直失败的。

      非常喜欢开源模型,他们迫使西方世界不得不降低价格。

      Deepseek的团队是一群超有才华的前量化分析师。量化分析师以榨取每一点性能提升而闻名。他们又一次成功了,只是这次是在不同的领域。高智商的人真是世界的福音。

      他们的训练效率非常疯狂。

      使用的训练数据与 Llama3405B 大致相同,约为15万亿。但在相同的训练数据下,算力却减少了10倍。

      哇塞,终于有人破解了训练效率难题。当其他人都在用数十亿美元计算他们的AI预算时,DeepSeek仅用他们的零头就能开发出前沿大模型。看来,仅仅投入更多的GPU并不总是解决问题的办法。

      这位老哥直接上图片,DeepSeek直接打跑OpenAI、Meta~

      Deep Seek v3模型简单介绍

      Deep Seek V3的架构延续了第二代的高效推理和低成本训练策略,主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块。

      MLA是V3的核心创新之一,主要用于减少推理过程中的内存占用。MLA将键和值压缩为一个潜在向量,并在推理过程中仅缓存该向量,而不是完整的键和值矩阵。

      MLA的压缩过程通过下投影矩阵和上投影矩阵实现。下投影矩阵将输入向量压缩为潜在向量,上投影矩阵将潜在向量还原为键和值。通过这种方式,MLA在推理过程中仅需缓存潜在向量和分离的键,从而显著减少了内存占用。

      MLA还对查询进行了低秩压缩,进一步减少了训练过程中的激活内存。所以,MLA是V3极大降低算力的主要原因之一。

      传统的MoE架构,面对大规模的数据处理任务时,容易出现专家负载不均衡的情况。这种不均衡会导致严重的后果,其中最为突出的就是路由崩溃问题。当某些专家承担了过多的负载,而其他专家则相对空闲时,路由机制可能会因为无法有效分配任务而陷入混乱,进而导致模型无法正常工作。

      由于专家负载的不平衡,计算资源无法得到合理分配,使得整体计算过程变得缓慢且低效。在处理复杂的语言任务时,需要大量的算力来支持模型的推理和决策过程。

      而V3对MoE进行了改良,引入了一套先进的动态调整机制,专门用于优化专家负载。在训练过程中,使得MoE会实时监测每个专家的负载情况,通过一系列复杂而精确的算法,根据实际负载动态地调整任务分配。这种动态调整并非简单的平均分配,而是根据专家的实时处理能力和当前任务的特点进行智能分配。

      例如,当某个专家的负载过高时,模型会自动将一部分任务转移到负载较轻的专家上,确保每个专家都能在合理的负载范围内工作。

      此外,V3的MoE 还使用了特殊的方法,会为每个专家设置一个动态的负载阈值,当负载超过该阈值时,触发负载调整机制。在调整过程中,模型会综合考虑多个因素,例如,专家的历史处理效率、当前任务的紧急程度以及整个系统的负载均衡情况等,所以,V3的 MoE 既解读了路由崩溃的难题,还将算力发挥到了极致。

      其实写到这里心里有一个疑问,Deep Seek要是有10万张***,能开发出像o3那样的超强大模型吗?

      Deep Seek除了开源最新模型之外,他们还提供了免费的在线服务,想尝试的小伙伴可以去体验一下。值得一提的是,还可以使用像o1模型那样的深度思考模式,并且会把整个推理过程全部写出来。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。