京东心动购物季即将开启 学而思xPad Pro PLUS会员到手不高于7899元520来京东搜“京东老友季” 听红衣教主聊AI的那些事520买礼物就选博朗亲肤6系剃须刀礼盒 京东比李佳琦便宜70元以旧换新至高减20% 京东家电家居618 “购新”更超值飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元CHIMA现场|“智慧医院云文档中心”成功发布,上海CA医疗行业数字信任方案备受关注擎朗医疗携全新一代Gen 2物流机器人亮相CHCC2024,助力医院数智化建设OpenAI“宫斗”第二季?消息称“超级对齐”团队已解散,成立不到 1 年2023 年我国卫星导航与位置服务产值超 5300 亿元,同比增长 7.09%下单到收货不到一刻钟,河南开启首批低空无人机物流配送航线杭温高铁开启联调联试,建成后杭州到温州 1 小时到达上海临港发布首批数据跨境一般数据清单,涉及智能网联汽车、公募基金、生物医药 3 大领域上海:将加快开源人形机器人原型机研发,2025 年重点行业机器人密度达 500 台 / 万人618前夕淘宝升级多款商家AI工具,面向商家免费开放崛起!一文速看云计算“国家队”五大突破!消息称中国一汽将加入蔚来换电联盟IDC:今年Q1中国平板电脑出货 713 万台同比增 6.6%,华为259万台位居第一构建离产业最近的AI,腾讯云公布多项大模型产品进展谷歌Pixel 8 手机运行 ChromeOS 项目现阶段仅为概念验证
  • 首页 > 云计算频道 > 云计算

    腾讯云织了张AI大模型的“网”

    2023年06月28日 10:42:57   来源:光子星球

      眼下AIGC激荡着各个行业,随着产品落地、应用增加,如何提升算力成为了整个行业的迫切需求,不过算力的提升并非只靠购买大量的GPU就能实现,网络基础设施起着至关重要的作用。

      由于GPU集群之间的数据交换与通信都要依靠网络承接,如果网络带宽不够大、延时长,不仅会让算力边际递减,而且还增加了大模型训练的时间成本。因此大带宽、高利用率并且信息无损的高性能网络对于当下算力的提升尤为重要。

      日前,腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会,向外界首次完整披露了其自研的星脉高性能网络。

      腾讯云副总裁王亚晨提到,星脉网络为大模型而生,提供大带宽、高利用率、零丢包率的高性能网络服务,从而突破算力瓶颈。腾讯数据中心网络总监李翔在介绍星脉的演进过程时,用了一个通俗的比喻:如今业务和客户对我们算力网络有了更高要求,过去前两个阶段我们是“村村通”,解决大规模部署和广覆盖的问题,到了第三个阶段的星脉网络,我们要做的是全自动化、无拥塞的高速公路。

      沟通会上,腾讯云展示了在交换机、通信协议、通信库以及运营系统等软硬件方面的升级,推出了自研的大模型专属高性能网络“星脉”。

      在硬件方面,在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统。在自研设备的基础之上,腾讯云还构建了自研网络操作系统,包括网络OS与网管平台,构建了互联底座,实现自动化部署和配置。

      在软件方面,腾讯云自研的TiTa网络协议,能够实时监测并调整网络拥塞,TiTa网络协议能够提升40%的带宽负载,还能提供低延时无损网络,实现高负载下的0丢包,使集群通信效率达90%以上。

      此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,为星脉网络提供定制化的高性能节点间数据通信解决方案。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。

      腾讯云方面称,星脉网络集成了腾讯自研技术积累,以极致高性能实现了AI大模型通信性能的10倍提升,GPU利用率40%提升,通信时延降低40%,支持10万级 GPU 集群组网。基于全自研网络硬件平台网络建设成本降低30%,模型训练成本节省30%~60%。

      王亚晨与李翔在会上回应了诸多外界关注的问题。

      提问:腾讯高性能网络的主要优势在哪里?技术关键点集中在哪些地方?

      王亚晨:腾讯在以太网上的优化从去年年初就开始了。从国内来看,我们是以太网里针对GPU优化比较有优势的,为什么我们会和其他厂商做那么多全调度以太网的合作?因为我们做了很多优化,尤其是在协议自研这块。

      另一个优势在于我们的架构。我们是把存储跟计算做了分离,保证两边的性能更优。

      无论是1.6T还是3.2T的GPU,我们可能用了8张GPU,一个CPU,加上8张网卡,但腾讯做了一些优化,8个网卡,一个网卡两个端口。好处是一旦有一个端口故障,另一个端口能够快速切上来,流量之间不受任何影响,也涉及到和交换机、和软件的配合,这种技术是我们的特色。

      提问:做大模型对网络技术的核心要求,解决零丢包、低延时最大的技术困难是哪些呢?

      王亚晨:当时我们遇到的最大困难是“拥塞控制”。去年年中,腾讯已经建了2K-4K的GPU集群用于模型训练,那时候我们用一级,最多两级交换机就OK了。

      但大模型出来后,GPU规模建设需求已经是万卡规模,这时候整个交换机组网规模必须要到三级了,因为我们交换的芯片容量是主流的25.6T,128个网口,它决定了组网的规模两级最优是4K,这决定了我们要做更大规模时交换机一定要做三级,便会遇到拥塞控制的问题,到今年年底扩容到51.2T时会好一点。

      虽然之前装了TiTa已经一定程度上解决了拥塞。但到三级之后,因为拥塞不可控,之前的机制不完全能达到很好的效果,所以我们得做新的拥塞控制机制,这也是现在业界讲到的主动拥塞控制。

      在GPU发包时要先了解网络的状况,有点类似于我出门前,先看看是否拥堵,如果拥堵,系统主动告诉我先不做。以前以太网都是被动拥塞控制,拥塞了才调度,但主动拥塞控制机制一定要在网卡发包时和交换机配合。

      为什么现在我们要自研新的算力网卡,其实它解决的是在多级组网情况下更好的拥塞控制,这是当时我们面临的挑战,也和我们现在的一些能力相关。

      另一个是带宽利用率的提升。现在我们做到95%左右的带宽利用率,实际上到新的3.2T服务器接入与三级架构时,我们发现这个带宽利用率会遇到巨大挑战。带宽利用率要消除网络不均匀的问题,之前我们用哈希(Hash)的方式。

      现在以太网是基于流调度,流有长有短,类似于路上跑的车有的大马力有的小马力,即使哈希到不同路径,你却不知道每个流的长短是什么样,很难完全消除不均匀。

      怎么做?现在以太网里有几个做法,一个是定长包,网卡侧发包时是定长的包,等于你看到的车都是标准化大小,这时候我再去哈希到不同路径,一定是相对均匀。这就是为什么我们要把端侧发包时变成定长的包,交换机要支持定长包的处理,同时定长包很容易出现乱序的问题,所以我们还要和端侧配合,保证不同的包虽然都是定长的,传过来可能有快有慢,还要把乱序的问题解决,这也要靠端侧解决。

      总而言之,拥塞控制与带宽利用率是我们当下遇到最大的两个挑战。

      提问:在网络管理和硬件设计上,我们倾向于采用集中式还是分布式?

      李翔:分布和集中都是设计网络的工具手段,我们会根据的场景需求来选择。在网络技术上,集中和分布一直是亘古不变的议题,网络中SDN2008年提出来到现在二十年了,集中后,下面被管理的网源会比较简单。集中管理、集中部署,下面的网元会非常简单,成本比较低。但现在分布式是现在网络比较认可的生态形式,分布式管理能够复用我们之前的运营积累,确保运营质量。

      王亚晨:满足可扩展性和运营安全性,这也是很关键的考量。腾讯基础设施最主要的生命线是网络质量,大系统肯定有大系统的好处,性能肯定更高,一旦出现故障,我们的分布式化可以减小故障率,这是最大的好处。我们把路由器拆成很多小的路由模块,可以跑到容器里,让我们整个网络更可靠。

      类似于最早的网络都是集中化的大盒子设备,无论是交换机、路由器还是运营商的基站、核心网,都是集中化的。但云厂商不一样,我们基本是全自研,都是一套自研系统,自主控制,不用引入太多异厂家的交互性。所以一定要在自研情况下做分布式更好,如果不是自研能力,靠各种厂家做分布式,本质上来讲一个厂家自己分布没问题,一旦引入另一个厂家混合搞,可能就复杂很多了。

      提问:之前说到白盒交换机的问题,可以多介绍一下吗?

      李翔:首先我们为什么要做白盒?刚才提到,交换机从最早的几台一直到现在几十万台在网,每年可能有几万台的采购量。面对大量级的需求,我们遇到了一些比较现实的问题。厂商会卖给你非常完善的解决方案,有几千个共同特性,所以迭代周期很慢。

      我们从两个维度考虑问题,第一个维度从质量考虑,我们希望对软件做减法。比如90%我是不是可以裁掉,自己用非常少的人维护起来,可以快迭代、快修复,从实际部署来说软件自主研发之后,显著提升了质量。

      第二就是在硬件角度,我们是“海底捞”模式,商业交换机卖的是满汉全席,是粤菜,但比较贵,我们只需要一款交换机,做减法。我们直接跟上游芯片商合作可以更快享受技术能力,过程更加透明,供应商利润也比较合理。

      所以我们做白盒有两个维度,第一个维度在软件上,更多是质量和迭代效率的考虑,硬件上是从成本上考虑,能够把它变得更加透明化。

      提问:如果将来你们接入其它模型,很多用户在上面训练,网络安全可能就比以前更重要了,以前只有你们自己在用,这方面不知道你们有什么设计或者已经做的事情?

      李翔:数据安全的问题在公有云时代是特别重要的。腾讯有七大安全实验室,都是做网络安全,我们整个技术网络有非常完善的虚拟化技术,还有做租户隔离、存储隔离,这些都是比较扎实的技术底座,同时内部还会有各种各样高级别的科学家带领团队做各种模拟攻击,保证不会被攻破。安全问题一直是云客户最重要的事情。

      回到GPU,一方面我们复用了它的能力,比如存储,直接复用云大盘的能力,对于基座的物理服务器可能更复杂,因为它比较追求性能,云上做隔离。但是容器、虚拟化对GPU服务器有严格的性能要求,需要一个物理机,这时候我们就只能把隔离监控全部放到网络上做。

      王亚晨:星脉除了支持腾讯自己的大模型以外,在腾讯云上也支持很多其它客户的模型做训练,有些客户对于性能觉得虚机也OK,我们就以大盘的能力来保证整个网络的安全。另外刚才说的信息安全,防攻击那些,都是腾讯云上面比较完善的体系。

      提问:针对腾讯之外的厂商,我们主要提供技术支持,还是也提供大模型相关的解决方案?

      王亚晨:我们整个技术底座除了腾讯自身以外也在支持腾讯云的算力集群,在腾讯云上也可以给客户售卖,今天没有专门讲这个解决方案。我们除了提供GPU的IaaS服务以外也会配合上面的训练框架、加速框架这些PaaS的可选服务,根据团队训练的模型和你的需求定制选购。基本上一些大的公司还是选择以IaaS服务为主,这也是腾讯云以标准产品给到客户。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。