• 首页 > 云计算频道 > 云计算

    超算架构算力成为大模型兵家必争之“力”

    2023年08月31日 11:00:34   来源:未来科技范

      今年以来,大模型成为当之无愧的风口,据不完全统计,国内已发布的各类大模型数量超过100个,呈现出“百模大战”的态势。资本也闻风赶来,天眼查APP显示,今年上半年与大模型直接相关的融资事件超20起。

      大模型愈演愈烈,随之催生了海量的AI算力需求。截至2022年底,我国算力总规模达180EFLOPS,目前居全球第二位,并保持30%的年增长率。据测算,2023年我国算力核心产业规模有望突破2万亿元。

      虽然算力行业总体蓬勃发展,但面对大模型浪潮之下激增的算力需求,目前英伟达的产能有限,加之受限于台积电的产能以及内存供应商等限制,GPU的产能不会暴涨,旺盛的需求和

      GPU的短缺,造成了行业存在巨大AI算力缺口,“抢卡”现象仍在持续。

      如何破解大模型“算力荒”成为摆在算力服务商面前的共同命题。

      “看不见”的超算,“看得见”的好用

      众所周知,大模型是“烧钱”的业务,而“烧钱”的原因最主要是当前每次大模型训练所需要的算力非常之高。

      以ChatGPT为例,根据OpenAI公开数据推测,如果每秒1000万亿次的计算,每次模型训练也需要3640天的计算能力。

      仅单次训练任务都需要数百张甚至数千张GPU卡做计算加速,例如A100、A800、H800等,同时还需要长周期、稳定可靠的计算环境来保障计算任务不中断,尽管开发者会加入很多的checkpoint,但发生故障后在时间、精力和成本方面的代价都不小。

      而过去的云计算架构主要是分布式架构,主流的云计算服务器之间的网络带宽在200Gbps,但大模型的一些训练需求服务器之间的互联网带宽一般要求达到3200Gbps,两者相差十几倍。

      过去的超算架构又主要以CPU为主,传统基础设施架构下的算力已经无法满足大模型时代的需求,只有建设大规模GPU超算集群才可以满足大模型的算力需求。

      大规模GPU超算集群,顾名思义,将大量GPU资源组成算力集群来应对极高的密集性计算,其浮点运算速度能够达到千万亿次每秒,同时具备高速互联计算网络、高性能文件存储和强劲的GPU算力。

      可以说,大规模GPU超算集群更加贴合大模型训练场景,并行科技董事长陈健也曾公开表示:“大模型的训练本质上就是一个超大的训练任务,比如在1000张GPU卡上跑两三个月,就是一个典型的超算应用场景。”

      超万 P 超算架构大模型算力“及时雨”解决“算力荒”

      据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,过去几年计算需求量已扩大30万倍,远超算力增长速度。

      GPU卡资源也始终紧张,大模型竞赛已经推高了市场对GPU的需求。尽管有一些公司即使暂时还不需要GPU,但由于担心未来,也会开始提前储备。相当于“对供应短缺的预期加重了供应短缺”。

      有相关人士预测至少到2023年底,对于要部署数百或数千的H100/H800的企业都会面临短缺问题,目前看来,GPU的短缺可能会持续到2024年。

      为缓解GPU卡资源紧张问题,作为超算架构大模型算力网络先行者的并行科技计划将在2023年底前,以“算力网络”为依托,上线超万P超算架构大模型算力,为大模型行业带来GPU资源“及时雨”。

      具体来说,并行科技通过云主机、高性能集群和裸金属三大产品体系支撑,基于高性能计算环境构建GPU算力服务平台,以满足大规模预训练、微调、高并发推理和高精度科学计算中对计算、存储、网络等环节的多样性需求。

      不过,对大模型训练来说,解决GPU卡的资源问题只是第一步。面对训练时的大规模计算需求,在近日举办的CCFHPCChina2023大会上,并行科技介绍了一套集资源、技术、服务、运维于一体的综合行业解决方案。专家团队7×24小时在线服务,针对模型框架的安装、部署、优化以及长时间运行的保障诉求等提供在线技术支持,让终端用户轻松调度算力资源。

      陈健表示:“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。

      我们最主要的优势体现在:一、确保用户有GPU卡可以用;二、通过技术服务让客户感到高性能、好用;

      三、通过算力优化降低用户用GPU卡的成本并提升效率。”

      此前,AI领域知名企业重点项目便是经过并行科技应用服务团队的调优,使单个512卡大模型训练任务性能提升了约40%,实现算力从“可用”向“好用”转化的同时,成本投入大幅降低。

      根据沙利文的研究报告显示,2021年通用超算云业务营收排行榜,并行科技排名第一,市场占有率超过20%。

      目前,大模型行业正处在发展的关键阶段,而算力作为刚需生产力之一,重要性不言而喻,一家合适、优质的算力服务商甚至成为其成长的关键助推器。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    TCL实业荣获IFA2024多项大奖,展示全球科技创新力量

    近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。