• 首页 > 企业IT频道 > 人工智能

    英伟达新对手悄然崛起

    2024年07月04日 14:20:07   来源:微信公众号:半导体行业观察

      英伟达都有哪些对手?

      *当然是AMD和英特尔,前者本身就有AI加速卡的业务,集CPU和GPU设计能力与一身,而后者呢,作为x86架构的奠基人,如今也涉足AI加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。

      而英伟达的客户与博通和Marvell组成统一战线后,也成了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用AI加速卡,让英伟达感受到了另一种压力。

      而在网络领域,英伟达也迎来了自己的对手。

      1、英伟达独占AI网络

      进入21世纪以来,随着云计算、大数据的日益普及,数据中心得到了快速发展。而InfiniBand在其中发挥了很大的作用,尤其是从2023年开始,以ChatGPT为代表的大型AI模型依赖于InfiniBand,让这一网络技术的关注度进一步提升。

      众所周知,现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构,该体系结构中有CPU(算术逻辑单元和控制单元)、内存(RAM、硬盘)和I/O(输入/输出)设备。20世纪90年代初,为了支持越来越多的外部设备,Intel率先在标准PC架构中引入了外围组件互连(PCI)总线设计。

      随后,互联网进入快速发展阶段,在线业务和用户规模的不断增长对IT系统容量提出了巨大挑战。在摩尔定律的支持下,CPU、内存、硬盘等部件都在飞速进步,而PCI总线的更新换代速度却比较慢,大大限制了I/O性能,成为了整个系统的瓶颈。

      为了解决这个问题,Intel、微软和SUN牵头制定了“下一代I/O(NGIO)”技术标准,而IBM、康柏和惠普则牵头制定了“未来I/O(FIO)”,并于1998年联合制定了PCI-X标准。

      1999 年,FIO 开发者论坛和 NGIO 论坛合并成立了InfiniBand 贸易协会 (IBTA)。很快,在2000年,InfiniBand架构规范1.0版本正式发布。InfiniBand诞生的目的就是为了取代PCI总线,它引入了RDMA协议,提供更低的延迟、更高的带宽、更高的可靠性,从而实现更强大的I/O性能。

      同样在1999年5月,几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立后加入了 NGIO,后来 NGIO 与 FIO 合并,Mellanox 也加入了 InfiniBand阵营,并于 2001 年推出了*款 InfiniBand 产品。

      而随着英特尔转向PCI Express(PCIe),以及微软退出InfiniBand,该网络技术开始转向计算机集群互联的应用领域,而新成立的Mellanox开始走上舞台,逐渐成为InfiniBand发展过程中的中坚力量。

      InfiniBand虽然同时被英特尔和微软放弃,但它在新的领域中找到了增长点。2012年以后,随着高性能计算(HPC)需求的不断增长,InfiniBand技术不断取得长足进步,市场份额不断提升。2015年,InfiniBand技术在TOP500榜单中的份额首次突破50%,达到51.4%(257个系统)。这标志着InfiniBand技术首次成功挑战以太网技术,成为超级计算机*的内部互连技术。

      而Mellanox也在不断成长:2010年,Mellanox与Voltaire合并,Mellanox和QLogic成为InfiniBand的主要供应商;2013年,Mellanox 进一步进军网络领域,收购硅光技术公司 Kotura 和并行光互连芯片制造商 IPtronics,进一步巩固其行业地位;到 2015 年,Mellanox 已占据全球 InfiniBand 市场80% 的份额。业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块,成为世界级网络供应商。

      随着AI的持续发展,InfiniBand的价值也日益显现,Mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。

      为什么InfiniBand对于AI如此重要?对于AI超级计算机来说,我们可以把它看作一个由许多图形处理单元(GPUs)组成的集群,这些单元进行大量复杂的计算。此外,还有一些中央处理单元(CPUs)负责指挥计算机的操作,再加上一些DRAM芯片和NAND芯片,成本大约分配为:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。

      但上述所有的芯片需要互相连接,这可以通过InfiniBand或以太网电缆来实现,也就是所谓的“网络”,它们占硬件成本的10-15%,而目的就是提供尽可能高的带宽,让数据能快速传输,倘若不能实现更高的带宽,那么无论在GPUs上花费多少成本,最后都会变得毫无意义。

      英伟达作为AI领域最早的探索者之一,很敏锐地察觉到了这一点,同时决定将其关注点从游戏转向AI。2019 年,英伟达以69 亿美元收购 Mellanox,超过了竞争对手英特尔和微软的出价,后两者的出价分别为 60 亿美元和 55 亿美元,这笔数额庞大的收购,为英伟达进入网络技术市场铺平了道路。

      当时英伟达的CEO黄仁勋解释称,收购Mellanox的原因是:“这是两家全球*的高性能计算公司的合并,我们专注于加速计算,而Mellanox则专注于互连和存储。”

      GPU和网络技术捆绑销售,听起来有点像强买强卖,但令许多人都未预料到的是,由黄仁勋所打造的这一模式迅速取得了成功。截至今年1月,英伟达的年收入翻了一番多,达到609亿美元,计算和网络部门的销售额增长了215%,占英伟达业务的78%。虽然英伟达的GPU部分引起了大量关注,但其网络业务也是成功的关键。在公司的最后一次财报电话会议上,黄仁勋表示,InfiniBand的收入同比增长了五倍,意味着其增长速度约为整个计算和网络业务的两倍。

      英伟达将自身的 GPU 算力与 Mellanox 的网络技术相结合,打造出了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据着*优势,

      2、英伟达的大威胁

      过去,业界一直在使用英伟达配套的 InfiniBand 网络解决方案来部署人工智能和机器学习技术,原因很简单,它是目前最成熟的支持大规模部署的网络技术,但InfiniBand并非*,一方面由于收购,它变成了英伟达的*产品,另一方面,它的成本昂贵,绝非普通企业可以轻松承担得起的。

      英伟达的CEO黄仁勋曾调侃道,InfiniBand只占集群成本的20%,而它能将人工智能训练的性能提高20%,某种程度上已经收回了成本,因而InfiniBand实际上是免费的。但这样的论断显然是有失偏颇的,客户必须首先拿出集群成本的20%,才能真正榨取出集群的性能,这就意味着用120%的成本创造120%的性能。

      相对比之下,基于以太网的集群通常只需要额外的10% 甚至更低的成本,尽管后者在性能上往往难以与InfiniBand匹敌,但它凭着自己的低廉价格也争取到了一部分用户。事实上,如今高性能网络的竞争,是InfiniBand与高速以太网的较量,资源充足的厂商会更倾向于选择InfiniBand,而注重性价比的厂商则可能倾向于高速以太网。

      但这样的情况并非一成不变,即便是那些具备雄厚财力的大企业,也在寻找更廉价更合适的网络方案,英伟达与InfiniBand正在不断受到挑战。

      2023年7月,Linux基金会宣布,将监督成立一个超级以太网联盟,该联盟的创始成员包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软的支持下,超以太网联盟表示将致力于改进以太网,以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。

      该联盟创立的首要任务是定义和开发他们所称的超以太网传输(UET)协议,这是一种新的以太网传输层协议,能更好地满足人工智能和 HPC 工作负载的需求。

      在高层次上,超以太网联盟希望以外科手术的方式完善以太网,只对实现目标所必需的部分进行改进和改动。从一开始,该联盟就着眼于改进以太网技术的软件层和物理层,但不改变其基本结构,以确保成本效益和互操作性。

      联盟的技术目标包括开发规范、应用程序接口和源代码,以定义超以太网通信的协议、接口和数据结构。此外,联盟还致力于更新现有的链路和传输协议,创建新的遥测、信令、安全和拥塞机制,以更好地满足大型人工智能和高性能计算集群的需求。同时,由于人工智能和高性能计算工作负载有许多不同之处,UET 将为适当的部署提供单独的配置文件。

      得益于这个超级以太网联盟,过去以太网运行 AI 工作负载的几个问题正在解决,也推动了以太网在传统 HPC 工作负载中的更广泛采用,这也让以太网网络公司找到了反攻InfiniBand的机会。

      超级以太网联盟成员之一,以太网络公司Arista Networks在今年2月的财报电话会议中,其首席执行官Jayshree Ullal解释了InfiniBand和以太网之间的区别:“如你所知,从历史上看,当单独考虑InfiniBand和以太网时各有优势。传统上,InfiniBand被认为是无损的,而以太网被认为有一些损失特性。然而当你实际将一个完整的GPU集群连同光学设备等一同考虑,并查看所有数据包大小上的任务完成时间一致性时,数据——包括来自博通的第三方数据——显示在现实环境中比较这些技术,以太网的任务完成时间大约快10%。所以,你可以孤立地看待这些技术,也可以在实际集群中看待它们。而在实际集群中,我们已经看到以太网的改进。请记住,这只是我们今天所知的以太网。一旦我们有了超级以太网联盟和一些改进,比如数据包喷洒、动态负载平衡和拥塞控制,我相信这些数字会变得更好。”

      “Arista声称其以太网在任务完成速度上比InfiniBand快约10%,这一点令我们感到意外,特别是考虑到InfiniBand在当前GPU集群中的深度渗透。”Jefferies分析师George Notter在会议后表示。

      他指出,英伟达将GPUs与InfiniBand简单捆绑销售是该技术成功的关键原因,换句话说,InfiniBand受欢迎的部分原因是因为它与英伟达的GPU一起销售,但这现在GPU的积压订单减少了,使用InfiniBand的动机可能也会减少,这对Arista以及另一家以太网网络公司博通来说是个好消息。

      “我们在四个主要的AI以太网集群中取得了进展,这些集群都是我们战胜InfiniBand的案例。在所有四个案例中,我们现在正从试验转向试点,每年连接数千个GPU,”Arista首席执行官Jayshree Ullal解释道。

      Arista在上季度业绩表现也非常不错,截至3月的三个月中,Arista的收入同比增长了16%,每股收益增长了44%,分析师预计随着AI基础设施支出的增加,这一增长将会加速。Arista约40%的业务来自微软和Meta,这两家公司都宣布明年将再次增加资本支出。Jefferies分析师George Notter最近还将Arista的评级从持有上调至买入,他表示:“现在,部署基于GPU的基础设施(包括以太网)的热潮将会持久。”

      Arista并不是*一家受益于“部署热潮”的网络公司。博通截至2月4日的三个月收入同比增长了34%,达到120亿美元,其中网络收入增长了46%,达到33亿美元。“这主要是由于我们的两个超大规模客户对AI加速器的强劲需求,”博通首席执行官Hock Tan在财报电话会议上解释道。

      对网络硬件的需求比博通预期的还要快,“超大规模客户以及部署AI数据中心的大型企业的强劲需求”推动了这一增长。因此,博通将其网络业务的全年增长预期从30%上调至35%。整体而言,博通今年的收入预计为500亿美元,比去年增长40%。

      国外媒体nextplatform提出了一个有趣的数学问题:Arista Networks 在 AI 集群互连销售中每赚取 7.5 亿美元,英伟达可能会损失 15 亿至 22.5 亿美元。在过去的 12 个月中,粗略估计英伟达在 InfiniBand 网络方面的销售额为 64.7 亿美元,而数据中心的 GPU 计算销售额为 397.8 亿美元,在四比一的分红率和稳定的市场条件下,英伟达可以保留约 13 亿美元,而超级以太网联盟可以保留 17 亿至 26 亿美元,如果一切保持不变,InfiniBand 的销售目标将达到 120 亿美元。

      该媒体指出,超级以太网联盟的成员可以抢占的市场份额很大,但他们将通过从系统中移除收入来抢占,就像 Linux 对 Unix 所做的那样,而不是将收入从一种技术转换为另一种技术,其中节省下来的资金将重新投入到 GPU 中。

      3、挑战英伟达

      英伟达不止是在网络领域受到挑战,正如我们前文中提到的,它的*依仗——GPU正在受到AMD、英特尔、博通等公司的围剿,尽管它坐拥3万亿美元市值,但依然会倍感压力。

      在网络市场,Arista现在无疑还是非常弱小的一家公司,相较于英伟达InfiniBand动辄数十亿美元的营收,短期内它还难以挑战,但巨头们对于AI集群网络垄断的不满,让Arista获得快速发展的宝贵机会,假以时日,它很有可能成为英伟达新的心腹大患。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。