• 首页 > 云计算频道 > 大模型

    科技云报道:GPU受限,国内AI大模型能否交出自己的答卷?

    2023年04月14日 17:27:44   来源:科技云报道

      科技云报道原创。

      这个4月,成为国产大模型混战期。

      继百度之后,阿里、华为、京东、360等大模型也陆续浮出水面,大模型军备竞赛正式开启。

      4月7日,阿里云宣布自研大模型“通义千问”开始邀请企业用户测试体验。

      4月8日,华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》,分享了华为云盘古大模型的进展及其应用。

      同日,京东集团副总裁何晓冬表示,京东将在今年发布新一代产业大模型,言犀是“京东版”ChatGPT。

      4月9日,360正式官宣,基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测。

      但有业内人士指出,大模型的训练需要庞大的算力资源,GPU是大模型的最佳算力发动机。

      截至目前,英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持。

      那么,在GPU受限的情况下,国内AI行业发展境况如何,能否交出属于他们自己的答卷?未来的发展是否会与国外越差越大?

      国内厂商大囤AI芯片

      众所周知,OpenAI ChatGPT大模型能有今日风光,英伟达的芯片A100功不可没。

      公开数据显示,凭借10000片英伟达的GPU芯片,OpenAI成功训练出了GPT-3大语言模型。

      TrendForce研究显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。

      在这个ChatGPT的出圈元年,英伟达作为全球算力硬件当之无愧的龙头公司,今年前三个月市值翻了一番。

      近日,英伟达又不负众望,推出了适用于ChatGPT的专用GPU,可以将推理速度提升10倍。

      但值得注意的是,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片。

      基于此,针对中国用户,英伟达按照A800操作模式(A100芯片的降维版本),推出了完全符合出口规定的H100的降维版本芯片,具体参数并未公布。

      然而,无论是A800,还是H100中国版本,都和国外市场可使用的原版芯片存在差距。

      据公开信息显示,英伟达专供中国的A800芯片,其传输速度只有A100的70%。

      国内企业担心以后会买不到英伟达AI芯片,自美国制裁令开启,就开始大举囤芯片。

      有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。

      但据媒体报道,国内拥有超高算力芯片的厂商并不多。国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家。

      其中,拥有1万枚英伟达A100芯片的最多只有一家。

      而国内云计算相关专家认为,做好AI大模型的算力最低门槛,就是1万枚英伟达A100芯片。

      国内外AI芯片存在差距

      从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个GPU芯片在支持。因此,通用GPU市场需求将会迎来爆发式增长。

      据Verified Market Research数据,2020年中国大陆的独立GPU市场规模为47.39亿美元,预计2027年将超过345.57亿美元。

      有业内人士指出,作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。

      在经历制裁后,国内的大型互联网企业在采购相关芯片时,尽管目前还是会购买英伟达,但也有相关的国产化替代方案。

      因此,在这波替代潮中,国内的寒武纪、昆仑芯、燧原、华为海思、海光、沐曦、摩尔线程等中国新一代GPU芯片研发公司,都将迎来非常大的机会。

      但同时,也需要看到国产GPU芯片与国外的差距,具体而言:

      大模型对于算力的需求分为两个阶段,一是训练出ChatGPT这类大模型的过程;二是将这个模型商业化的推理过程。

      在大模型训练阶段,需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,而现阶段国产GPU大多还不具备支撑大模型训练所需的能力。

      不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。

      英伟达的A100同时具备上述两类能力,而国内GPU芯片的云端训练公司,大多只能处理单精度浮点计算,如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错,但没有处理FP64的能力。

      根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。

      但有专家认为,国内通用GPU产品在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。

      目前国产GPU公司都在朝着大模型领域去做布局。

      昆仑芯表示,昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能,公司正在不断研发新的产品和技术,为ChatGPT等大模型的应用提供更佳的性能体验。

      登临科技新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升,对标国际大厂的产品有明显的能效比和性价比的优势。

      燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施。

      摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。

      此外,行业从业者也都在做相关的探索和努力,如思考能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。

      国产AI芯片尚需生态支撑

      事实上,比起硬件性能上的差异,软件适配与兼容让国内客户接受更难。

      当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。

      从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,“慢”是企业最不愿意看到的场景。

      此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

      对厂商而言,把国产AI芯片用起来并不容易。

      算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。

      先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。

      这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。

      如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。

      目前世界上主流的深度学习框架都基于CUDA进行加速,整个产业中下游软件、驱动厂家等都基于此进行适配。

      这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和window操作系统+上层应用软件一样。

      尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力,大多会选择兼容CUDA架构,来降低客户使用门槛。

      当然,也有部分公司会选择自研加速器,如:寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。

      但即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。

      对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否则客户更换的意愿很低。

      为此,国内从业者已经在构建生态上做努力。

      在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配、互相支持。

      例如,2022年4月,百度飞浆已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。

      昆仑芯和飞浆完成3级兼容性适配,登临科技和飞浆也完成2级适配,沐曦集成电路和飞浆完成1级兼容性测试。

      除此之外,华为的MindSpore和爱可生向量数据库兼容;智源研究院的九鼎智算平台也在和多家国内AI芯片公司合作。

      结语

      未来,大模型训练对算力的需求会越来越大。想要参战大模型竞赛,算法、算力、数据环环相扣。

      在最卡脖子的芯片环节,如何缩小差距,成为国内厂商求共解的命题。

     

     

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。