首页 > 云计算频道 > 大模型

科技云报道：GPU受限，国内AI大模型能否交出自己的答卷？

2023年04月14日 17:27:44 来源：科技云报道

　　科技云报道原创。

　　这个4月，成为国产大模型混战期。

　　继百度之后，阿里、华为、京东、360等大模型也陆续浮出水面，大模型军备竞赛正式开启。

　　4月7日，阿里云宣布自研大模型“通义千问”开始邀请企业用户测试体验。

　　4月8日，华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》，分享了华为云盘古大模型的进展及其应用。

　　同日，京东集团副总裁何晓冬表示，京东将在今年发布新一代产业大模型，言犀是“京东版”ChatGPT。

　　4月9日，360正式官宣，基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景，将面向企业用户开放内测。

　　但有业内人士指出，大模型的训练需要庞大的算力资源，GPU是大模型的最佳算力发动机。

　　截至目前，英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持。

　　那么，在GPU受限的情况下，国内AI行业发展境况如何，能否交出属于他们自己的答卷?未来的发展是否会与国外越差越大?

　　国内厂商大囤AI芯片

　　众所周知，OpenAI ChatGPT大模型能有今日风光，英伟达的芯片A100功不可没。

　　公开数据显示，凭借10000片英伟达的GPU芯片，OpenAI成功训练出了GPT-3大语言模型。

　　TrendForce研究显示，以A100的算力为基础，GPT-3.5大模型需要高达2万枚GPU，未来商业化后可能需要超过3万枚。

　　在这个ChatGPT的出圈元年，英伟达作为全球算力硬件当之无愧的龙头公司，今年前三个月市值翻了一番。

　　近日，英伟达又不负众望，推出了适用于ChatGPT的专用GPU，可以将推理速度提升10倍。

　　但值得注意的是，自2022年9月，美国禁止向国内客户售卖英伟达A100、***和AMD的MI250人工智能芯片。

　　基于此，针对中国用户，英伟达按照A800操作模式(A100芯片的降维版本)，推出了完全符合出口规定的***的降维版本芯片，具体参数并未公布。

　　然而，无论是A800，还是***中国版本，都和国外市场可使用的原版芯片存在差距。

　　据公开信息显示，英伟达专供中国的A800芯片，其传输速度只有A100的70%。

　　国内企业担心以后会买不到英伟达AI芯片，自美国制裁令开启，就开始大举囤芯片。

　　有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品，目的仅是获得GPU芯片。

　　但据媒体报道，国内拥有超高算力芯片的厂商并不多。国内云厂商主要采用的是英伟达的中低端性能产品，拥有超过1万枚GPU的企业不超过5家。

　　其中，拥有1万枚英伟达A100芯片的最多只有一家。

　　而国内云计算相关专家认为，做好AI大模型的算力最低门槛，就是1万枚英伟达A100芯片。

　　国内外AI芯片存在差距

　　从长远来看，未来大模型的研发和部署是必然趋势，而每个大模型训练和部署的背后，都有几万个GPU芯片在支持。因此，通用GPU市场需求将会迎来爆发式增长。

　　据Verified Market Research数据，2020年中国大陆的独立GPU市场规模为47.39亿美元，预计2027年将超过345.57亿美元。

　　有业内人士指出，作为大模型的主要入局者，国内互联网大厂拥有天然的数据优势，自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。

　　在经历制裁后，国内的大型互联网企业在采购相关芯片时，尽管目前还是会购买英伟达，但也有相关的国产化替代方案。

　　因此，在这波替代潮中，国内的寒武纪、昆仑芯、燧原、华为海思、海光、沐曦、摩尔线程等中国新一代GPU芯片研发公司，都将迎来非常大的机会。

　　但同时，也需要看到国产GPU芯片与国外的差距，具体而言：

　　大模型对于算力的需求分为两个阶段，一是训练出ChatGPT这类大模型的过程;二是将这个模型商业化的推理过程。

　　在大模型训练阶段，需要处理高颗粒度的信息，对云端训练芯片的芯片处理信息的精细度和算力速度要求更高，而现阶段国产GPU大多还不具备支撑大模型训练所需的能力。

　　不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求，在超算领域，双精度浮点计算能力FP64是进行高算力计算的硬性指标。

　　英伟达的A100同时具备上述两类能力，而国内GPU芯片的云端训练公司，大多只能处理单精度浮点计算，如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错，但没有处理FP64的能力。

　　根据公开消息，目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器)，但是它的性能只有A100的60%左右。

　　但有专家认为，国内通用GPU产品在满足大模型训练上与国际旗舰产品存在差距，但并非不可弥补，只是此前行业在产品定义里未朝着大模型方向做设计。

　　目前国产GPU公司都在朝着大模型领域去做布局。

　　昆仑芯表示，昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能，公司正在不断研发新的产品和技术，为ChatGPT等大模型的应用提供更佳的性能体验。

　　登临科技新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升，对标国际大厂的产品有明显的能效比和性价比的优势。

　　燧原科技宣布对公司品牌做战略升级，要打造AIGC时代的基础设施。

　　摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。

　　此外，行业从业者也都在做相关的探索和努力，如思考能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。

　　国产AI芯片尚需生态支撑

　　事实上，比起硬件性能上的差异，软件适配与兼容让国内客户接受更难。

　　当大模型和应用层面的竞争拉响，从商业角度思考，采用国产AI芯片参战并不是好的选择。

　　从硬件性能上，使用国产AI芯片计算会比采用英伟达A100慢，在分秒必争的当下，“慢”是企业最不愿意看到的场景。

　　此外，哪怕能通过堆芯片的方式堆出一个算力相当的产品，从服务器运营的角度，它的主板开销、电费、运营费，以及需要考虑的功耗、散热等问题，都会大大增加数据中心的运营成本。

　　对厂商而言，把国产AI芯片用起来并不容易。

　　算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU，需要突破CUDA生态和整个产业生态的壁垒。

　　先说CUDA，为了把GPU的算力能力进一步发挥，英伟达花了10年时间，投入3000多人打造了一个CUDA框架。

　　这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

　　如果没有这套编码语言，软件工程师发挥硬件价值的难度会变得极大。

　　目前世界上主流的深度学习框架都基于CUDA进行加速，整个产业中下游软件、驱动厂家等都基于此进行适配。

　　这构成了一个极强大的生态壁垒，就像苹果系统内部的闭环生态，和window操作系统+上层应用软件一样。

　　尚处于创业阶段的芯片设计公司，很难在生态上投入如此大的人力财力，大多会选择兼容CUDA架构，来降低客户使用门槛。

　　当然，也有部分公司会选择自研加速器，如：寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈，希望打造自己的生态，也能摆脱硬件需受CUDA更新的困扰。

　　但即使有了这个编程框架，整个产业生态上的人也很难把这个芯片用起来。

　　对于企业来说，更换云端 AI 芯片要承担一定的迁移成本和风险，除非新产品存在性能优势，或者能在某个维度上提供其他人解决不了的问题，否则客户更换的意愿很低。

　　为此，国内从业者已经在构建生态上做努力。

　　在一个AI生态中，支撑大模型训练需求，需要底层硬件、中间深度学习平台、上层应用软件的整体适配、互相支持。

　　例如，2022年4月，百度飞浆已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商，31种芯片的适配和优化，基本覆盖国内主流芯片。

　　昆仑芯和飞浆完成3级兼容性适配，登临科技和飞浆也完成2级适配，沐曦集成电路和飞浆完成1级兼容性测试。

　　除此之外，华为的MindSpore和爱可生向量数据库兼容;智源研究院的九鼎智算平台也在和多家国内AI芯片公司合作。

　　结语

　　未来，大模型训练对算力的需求会越来越大。想要参战大模型竞赛，算法、算力、数据环环相扣。

　　在最卡脖子的芯片环节，如何缩小差距，成为国内厂商求共解的命题。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

新闻

明火炊具市场：三季度健康属性贯穿全类目

奥维云网(AVC)推总数据显示，2024年1-9月明火炊具线上零售额94.2亿元，同比增加3.1%，其中抖音渠道表现优异，同比有14%的涨幅，传统电商略有下滑，同比降低2.3%。

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

“以前都要去窗口办，一套流程下来都要半个月了，现在方便多了!”打开“重庆公积金”微信小程序，按照提示流程提交相关材料，仅几秒钟，重庆市民曾某的账户就打进了21600元。

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

华硕ProArt创艺27 Pro PA279CRV显示器，凭借其优秀的性能配置和精准的色彩呈现能力，为您的创作工作带来实质性的帮助，双十一期间低至2799元，性价比很高，简直是创作者们的首选。

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

9月14日，2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。

专题

返回主页 ┊ 关于我们 ┊ 内容联系 ┊ 联系我们 ┊ 免责声明 ┊ 原创新闻 ┊ 门户版

科技云报道：GPU受限，国内AI大模型能否交出自己的答卷？

扩展阅读