诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购京东“先人一步”预约OPPO Reno13系列 1元锁定腾讯视频VIP会员季卡万兆光网中国行:以应用为牵引,上海万兆加速启航消息称芯片制造商铠侠12月18日上市,将通过IPO筹资总计700亿日元谷歌安卓16打造端侧AI智能体:Gemini将成管家,代用户掌控应用交互
  • 首页 > 企业IT频道 > 数字化

    浪潮信息:一群工程师怎么去“炼丹”

    2023年06月02日 15:55:40   来源:数智前线

      诞生30多年的服务器产业被认为已相当成熟,但伴随人工智能疾风骤雨般的发展,作为算力的重要承载者,服务器产业的创新并不乏力,也不只局限在半导体上,业界目前还有非常多的问题要沉淀下来研究,尤其是针对基础技术的量化分析。

      文|赵艳秋

      编|石兆

      在不少人看来,已经诞生30多年的服务器产业已相当成熟,几乎就是CPU、内存和硬盘三大件的“组装”,行业的创新焦点也集中在解决CPU处理器、GPU、FPGA、ASIC加速器的半导体问题上。不过,业内人士并不认可这样的说法。

      服务器产业并不是创新乏力了,创新也不只局限在半导体上。“进入智算时代,服务器在基础架构等方面还有非常多的问题需要沉淀下来研究,找到解决之道。”浪潮信息技术研发部副总经理吴安告诉数智前线,“尤其是针对基础技术的量化分析上,有大量工作要做。”

      最近,伴随业界全新一代、对多元算力支持最广泛的算力平台G7的推出,一些服务器行业最新的创新动向浮出水面。

      01

      一个黑盒子和它的数学模型

      实际上,最近几年,伴随人工智能疾风骤雨般的发展,服务器行业作为算力的重要承载者,一直在疾行中。全球最先进、最高速率、最大算力的服务器平台,在以最快速度投入到人工智能研发应用上。去年11月底,ChatGPT推出后,更是引爆全网,业界认为这是一个百年不遇、类似工业革命的产业革命。不仅大公司,大量行业公司和中小企业也投身通用大模型或专属大模型,这更是加重了对算力创新的要求。

      “早年我们觉得一个计算集群有几百张GPU卡已经不错了,但现在我们看到一个集群有数万张GPU卡,这是不可想象的。GPU卡之间的网络连接带宽也在往400G、800G上跑,整个网络的构建极为复杂。”吴安说。人工智能,尤其大模型需要先进算力的支撑。数智前线观察,业界如百度、阿里、网易等,在对外公布大模型时,都会重点谈及计算集群的创新和保障,足见其困难度和关键性。

      由于这些GPU卡算力庞大,功耗已达到600瓦以上,再往后一张卡的功率可能要到1000瓦以上,这意味着现在一台10千瓦的GPU机器,将来甚至可能达到20千瓦的功率,由此引发的问题和挑战也是前所未见的。

      其实在ChatGPT问世前的几年,高密度、高功耗的算力,已给产业带来挑战。比如,面对高功耗,一种散热方案是提升服务器的风扇转速。但在2019年前后,业界几乎同时遇到一个问题,就是风扇一旦转起来,服务器硬盘性能就可能下降 ,甚至会掉线,影响了存储密度的提升。一系列实验后,大家最终锁定,由于风扇转速已超过了顶级跑车的发动机转速,达到每分钟2~3万转,风扇声音的能量大到已经影响硬盘了。

      实际上,汽车在行驶中也有噪音和振动干扰问题,被称为NVH(noise vibration harshness)。整车约有1/3的故障与车辆的NVH有关,但其背后原因很难定位,汽车工程师经常把NVH称为玄学 。

      在服务器行业,国际开源计算社区OCP组织成员FaceBook(现为Meta公司)、微软、戴尔、浪潮信息、希捷、西部数据,还有类似BOYD的散热风扇等供应商,共同发起了Storage Vibration(存储设备振动)项目,期望制定行业通用的标准并设计检测工具,以期在硬盘容量、功耗、风扇三方博弈中找到新的平衡点。

      2021年,浪潮信息在OCP大会上,首次分享了在这一领域的突破性工作——分发浪潮信息硬盘敏感度专家模型,找到了声压影响硬盘读写性能的内在机理,提出了数学模型。此前,因为这是一个极为复杂的系统性问题,业界无人用理论和计算揭示其中隐藏的原理和关系。现在,黑盒子被打开了。

      “这个工作前后历经长达四五年时间,开展了大量分析验证,也有一些灵感的涌现。”浪潮信息结构专家王羽茜告诉数智前线,比如在构建模型过程中,如何去做量纲变化,就是团队“灵光一现想到了一个数学公式”。

      今年5月,在浪潮信息推出的全新一代服务器平台G7中,为解决NVH难题而开发的专家系统,就是这一平台中诸多创新中的一个。据悉,G7平台支持x86、ARM等8种通用处理器和51种加速芯片,是目前业界算力支持最广泛的平台。

      “如何去做量化分析,开发整套专家系统,就是我们未来的工作。”王羽茜说,“这样我们就可以去利用它,对算力平台进行极致化设计。”

      02

      一群结构工程师四五年的跨界探索

      这样的量化分析,已经与人工智能密不可分。

      实际上,在浪潮信息内部,王恩东院士及管理层也在加强包括研发、制造、服务等业务在内的智能化。智能化已成为改进企业生产力和解决问题的重要路径。

      比如,解决服务器的NVH问题,是一件极为复杂的事。对于普通人来说,并不知道当下服务器已发展到怎样精密的程度——像硬盘磁头的微小结构,甚至要在显微镜下放大1000倍才能看到。一个声音进去后,可能引发一个极微小部件的共振,产生纳米级偏移,都会导致硬盘不能准确读写。而且,服务器内部是一个多物理场,涉及结构场、声场、磁场等。多物理场耦合,加剧了问题的复杂度。

      “我们在宏观上看到的硬盘性能损失,在微观上可以说是丝丝相扣的。”王羽茜说,这真是牵一发而动全身。在这种情况下,需要用数据构建数学模型,提炼出共性的东西,才能找到问题的解决之道。

      为此,工程师们先是测量市场上不同硬盘、在不同噪声下的性能损失,构建数学模型。同时,配合专门设计的“硬盘假体”,采集服务器主流机箱内的噪音和振动敏感度数据。这些采集到的机箱频谱,再与硬盘敏感度模型匹配,计算出硬盘内部的共振频率以及由此产生的损失率。

      “通过数据积累和不停的训练迭代,模型的精度从最早40%,逐步提升到80%、90%。”吴安称,“这样,不需要等机箱开发出来,就能通过这套专家系统预估,主流供应链上的硬盘与机箱的适配度是不是ok,从而可对服务器系统展开多维度、多层次的优化设计。”

      ‍

      在这个项目中,参与研发的是一群富有经验的结构工程师,但他们面对的是一个跨越流体动力学、声学、结构振动学等多个学科的前沿项目,不仅要寻找底层机理,还要搭建测量数据的软硬件系统,最终要构建人工智能模型,训练迭代完成“炼丹”。

      在这个过程中,工程师从最传统的研究振动的“正弦波”入手,经历各种实验,最终抛弃传统思路,找到最适合的噪声带宽。而在构建数学模型过程中,王羽茜回忆,他们从最初“一个喇叭,一个麦克风,一部电脑”的简陋实验设备起步,逐步与业界专业公司合作,搭建了高精度声音控制系统,最终才找到声音与硬盘性能之间的精确的数学规律。

      在G7平台上另一个服务器“听音诊断”的创新中,基于浪潮信息积累的200个小时的服务器声学数据库,以及以往多年的服务器故障信息数据,工程师搭建出风扇故障预测模型。服务器可通过内部麦克风阵列、音频处理芯片,采集系统的多维噪音,然后基于主板上BMC芯片中的风扇故障智能诊断模型进行分析诊断,仅需10秒钟“听音”,就可预警风扇故障状态,精准度达95%。

      在智能化方向上,浪潮信息于2021年发布了大语言模型源1.0,目前还在不断研发升级中。这是一个开源的大语言模型,除了为中小客户提供大模型平台外,在浪潮信息内部也在落地应用。

      吴安告诉数智前线,比如在服务方面,浪潮信息基于“源”大模型打造了专家级数据中心智能客服“源晓服”。目前,“源晓服”覆盖浪潮信息8大产品线的服务问题,问题覆盖率达到92%。其中,针对数据中心常见的技术问题,如系统安装、Raid配置、部件异常等问题,“源晓服”的解决率高达80%,可将复杂技术咨询问题的业务处理时长降低65%,提升浪潮信息整体服务效率达160%。

      03

      研发体系的变革

      在服务器行业研发向更深层次的发展中,浪潮信息的研发体系也发生了较大变革。

      之前很多年是围绕项目,实行烟囱式管理,“来一个项目,开发一个项目”,现在则是平台化开发模式,平台解决共性技术,不仅高效,也保障了质量。针对重要的固件、散热、结构、互联等共性问题,公司成立了约十个能力中心,向下又细分为几十甚至上百个技术方向。

      值得注意的是,浪潮信息从工程师团队专门剥离成立了架构师团队,主要作用是进行顶层规划。吴安介绍,最近几年,无论大型的机架式服务器,AI服务器,还是边缘服务器,都在强调多元算力融合。为了实现这样的平台系统,需要从逻辑设计、体系架构层面,研究如何充分解耦,“这是一个很难的问题”,其中最重要的是有好的顶层设计。

      “这样的研发体系,包括系统架构的理念,支撑我们在有限资源、有限时间中,实现业界最丰富的多元融合算力平台。”吴安称。本质上,多元算力融合是一个平台来容纳多元算力。“如果没有一个很好的平台性开发,是无法实现的。”

      而在这两年中,浪潮信息管理团队又发现,如果把一些预研技术或前瞻技术都放在产品开发团队中,就不能保障投入资源的持续性和稳定性。“一旦有大订单,产品开发的优先级一定是高的。”

      为了避免顾此失彼,浪潮信息又成立了技术研发部和一个体系结构部,分别负责预研和前沿技术研发。“这就变成了一个异步开发技术体系,既保证了对前瞻技术的洞察和识别,领跑每一个技术方向,又不会影响产品的开发效率。”

      而上述针对NVH问题的研发和服务器风扇智能听音诊断模型,就出自技术研发部的团队。这些前沿技术完成研发,以合理的性价比投入到G7平台中,为客户提供差异化功能。

      在研发上,对开放组织的战略投入也被视为关键一环。浪潮信息从投入国内的开放组织ODCC,到担任OCP(开放计算项目)中国区主席,再到成为最新OCTC(开发计算标准工作委员会)的主要创始成员之一,一直采取了开放的技术策略。

      “基于开放组织,可以获取非常多的合作资源和机会,还可以同业界一起思考和提出未来产业方向,联合孵化项目。”吴安说,“尤其是现在研发越来越向深度和精细化方向发展,这样的开放合作极为关键。”

      比如,在NVH的研发过程中,OCP开放组织在其中扮演了重要角色。“OCP汇聚了全球相关公司,整个供应链上的专家,我们与他们交换了很多想法,也让我们看到这个事情的价值,驱动我们继续往下走。”王羽茜说。同时,OCP也通过集思广益,统一了硬盘假体——那个能采集噪音和振动的设备,为NVH问题的解决铺路。

      在浪潮信息实验室平台建设上,也融入了开放合作的思路。它融合了产学研多个领域的专家,聚集了不少产学研结合的资源和方向,像与顶尖高校和研究机构展开合作,尤其在服务器领域,这些合作几乎是独一无二的,浪潮信息团队也因此在“炼丹”过程中获得了更宽视野。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。