突破叙事尺度 刻画极致人物 迷雾剧场《漂白》1月17日上线爱奇艺1月20日手机数码国补落地京东 超千万国补商品等你挑选超千万货品已备足 1月20日来京东购手机享国家补贴每件最高500元拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办斑马技术《2025全球消费者调查报告》:注重防损管理,增强顾客体验终端创企Nothing拟募资1亿美元 一加联合创始人创立恩智浦获欧洲投资银行 10 亿欧元贷款,用于在欧多国研发创新工作入手松下ZS99相机新品首选京东 售价2998元可先人一步入手1月20日打开京东搜索「1」 3C数码“疯狂星期一”爆款低至1元当代年轻人用上AI,从夸克开始消息称iPhone SE 4将有白色和黑色 预计3月份推出全球PC市场迎来温和复苏:2024年出货量增长1.3%,联想和苹果表现亮眼比亚迪已在韩国推出Atto 3 预计2月中旬开始交付发展新质生产力 赋能健康产品力 ——劲牌有限公司2024年度科技责任(成果)报告美光减产后 SK海力士也计划将上半年NAND闪存产量削减一成赵明离职信曝光:离开荣耀是人生中最艰难的决定消息称京东服饰换帅,阿里前高管担任负责人这年头,谁在互联网上学这么“硬核”的AI?开战2025,本地生活商家「另辟蹊径」年底Mini LED电视到底怎么选?认准这些新技术不踩雷!
  • 首页 > 企业IT频道 > 软件即服务

    微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟达芯片

    2023年03月14日 10:31:26   来源:网易科技

      3月14日消息,美国当地时间周一,微软发文透露其斥资数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发爆火的聊天机器人ChatGPT。这台超算使用了数万个英伟达图形芯片A100,这使得OpenAI能够训练越来越强大的AI模型。

      OpenAI试图训练越来越大的AI模型,这些模型正在吸收更多的数据,学习越来越多的参数,这些参数是AI系统通过训练和再培训找出的变量。这意味着,OpenAI需要很长时间才能获得强大的云计算服务支持。

      为应对这一挑战,当微软于2019年向OpenAI投资10亿美元时,该公司同意为这家AI研究初创公司组装一台巨大的尖端超级计算机。但问题在于,微软没有任何OpenAI所需的东西,也不完全确定其能否能在不破坏Azure云服务的情况下构建如此庞大的设备。

      为此,微软不得不想方设法将英伟达的数万个A100图形芯片连接起来,并改变服务器在机架上的放置方式以防止断电。A100图形芯片是培训AI模型的主力。微软负责云计算和AI业务的执行副总裁斯科特·格思里(Scott Guthrie)没有透露该项目的具体成本,但其暗示可能达数亿美元。

      微软Azure AI基础设施总经理尼迪·卡佩尔(Nidhi Cappell)说:“我们构建了一个系统构架,它可以在非常大的范围内运行且十分可靠,这是ChatGPT成功的重要原因。这只是我们从中得出的一个模式,还会有许许多多其他的模型。”

      基于这项技术,OpenAI发布了爆火的聊天机器人ChatGPT。在去年11月上线后几天,它就吸引了100多万用户,现在正被纳入其他公司的商业模式。随着企业和消费者对ChatGPT等生成式人工智能(AIGC)工具的兴趣越来越大,微软、亚马逊和谷歌等云服务提供商将面临更大的压力,以确保他们的数据中心能够提供所需的巨大算力。

      与此同时,微软现在也开始使用它为OpenAI构建的基础设施来训练和运行自己的大型AI模型,包括上个月推出的新必应搜索聊天机器人。该公司还向其他客户销售该系统。这家软件巨头已经在研发下一代AI超级计算机,这是微软与OpenAI扩大合作的一部分,微软在交易中增加了100亿美元投资。

      格思里在接受采访时说:“我们并没有为OpenAI定制任何东西,尽管其最初是定制的,但我们总是以一种泛化的方式构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进技术。这真的帮助我们在更广泛的范围内成为更好的AI智能云。”

      训练规模庞大的AI模型需要在某个地方有大量相互连接的图形处理单元,就像微软组装的AI超级计算机那样。一旦模型投入使用,回答用户查询的所有问题(这个过程称为推理)需要略有不同的设置。为此,微软还部署了用于推理的图形芯片,但这些处理器(成千上万个)在地理上分散在该公司60多个数据中心里。微软表示,现在该公司正在添加用于AI工作负载的最新英伟达图形芯片H100以及最新版Infiniband网络技术,以更快地共享数据。

      新的必应仍处于测试阶段,微软正在逐步从申请测试名单中增加更多用户。格思里的团队与大约20多名员工每天都要举行会议,他将这些员工称为“pit crew”,原指赛车中车队后勤维护组的技师。这些人的工作是找出如何让更多的计算能力快速上线,以及解决突然出现的问题。

      云服务依赖于数千个不同的部件,包括服务器、管道、建筑物的混凝土、不同的金属和矿物,而任何一个组件的延迟或短缺,无论多么微小,都可能导致整个项目中断。最近,“pit crew”团队不得不帮助解决电缆托盘短缺的问题,这是一种篮状的装置,用来固定从机器上顺下来的电缆。因此,他们设计了一种新的电缆桥架。格思里说,他们还致力于研究如何在世界各地的现有数据中心压榨尽可能多的服务器,这样他们就不必等待新的建筑竣工。

      当OpenAI或微软开始训练大型AI模型时,这项工作需要一次完成。工作被分配给所有的GPU,在某些时候,这些GPU需要相互交流来分享他们所做的工作。对于AI超级计算机,微软必须确保处理所有芯片之间通信的网络设备能够处理这种负载,并且它必须开发出最大限度地利用GPU和网络设备的软件。该公司现在已经开发出一种软件,可以用来训练数十万亿个参数的AI模型。

      因为所有机器都是同时启动的,微软不得不考虑安放它们的位置,以及电源该应该放在哪里。否则,数据中心最终可能会断电。Azure全球基础设施总监阿利斯泰尔·斯皮尔斯(Alistair Speirs)说,微软还必须确保能够冷却所有这些机器和芯片,该公司在较凉爽的气候中使用蒸发;冷却方式、在较冷的气候中使用室外空气,在炎热的气候中使用高科技沼泽冷却器。

      格思里说,微软将继续致力于定制服务器和芯片设计,以及优化供应链的方法,以尽可能地提高速度、提高效率和节省成本。他说:“现在令世界惊叹的AI模型是基于我们几年前开始建造的超级计算机构建的,而新模型将使用我们现在正在训练的新超级计算机。这台计算机要大得多,可以实现更复杂的技术。”

      微软已经在努力使Azure的AI功能更加强大,推出了新的虚拟机,使用英伟达的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand网络。微软表示,这将允许OpenAI和其他依赖Azure的公司训练更大、更复杂的AI模型。

      微软Azure AI企业副总裁埃里克·博伊德(Eric Boyd)在一份声明中说:“我们发现,我们需要构建专门的集群,专注于支持大量的培训工作,而OpenAI就是早期的证据之一。我们正与他们密切合作,了解他们在建立训练环境时需要的关键条件,以及他们需要的其他东西。”(小小)

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。