员工批判美国运营商 AT&T“加压”政策:少发工资,还要为客户推销商品我国科研新突破:量子直接通信迈向实际应用,创长距离稳定传输纪录日本将正式引入数字教科书宗庆后之女宗馥莉接手娃哈哈创投,出任公司董事英特尔18A 工艺准备就绪,Panther Lake 计划下半年发布并投产索尼成日本市值第二大公司,任天堂排名第十高德红外:公司 5 年前就开展脑机接口研究,多项技术已超越马斯克 Neuralink 公司豪掷重金:深圳鼓励各大创新主体加大研发投入,最高资助 1 亿元通用具身智能仿真平台桃源 2.0 发布:三行代码定义任务,并面向全球开发者开放深圳:将发布人形机器人专项政策,并将在全市科技重大专项中安排 AI 和机器人专项《阿凡达:火与烬》12 月 19 日北美上映,卡梅隆称已接近完成2025 年铁路春运圆满收官:发送旅客 5.13 亿人次创历史新高韩研究院报告:绝大多数半导体技术已被中国赶超台积电:2nm 制程技术进展良好,将如期在下半年量产电影《哪吒 2》将于 3 月 6 日起在新加坡公映半导体跨界潮,谁在跟风,谁在下棋?Nikola,一个千亿造车独角兽破产了消息称谷歌将因违反反垄断规则而遭欧盟指控,恐被处以高额罚款透明美学再进化,Nothing Phone(3a)系列手机宣传物料曝光2025 年春运今日迎来最后一天,全国铁路已累计发送旅客 4.99 亿人次
  • 首页 > 产经新闻频道 > 业界新闻

    川庆物探数据机房运维:实现资源统一、自动化调度管理

    2017年10月09日 15:28:55   来源:慧聪网

      经过快速稳定的发展,川庆物探IT规模逐渐扩大,IT基础架构建设趋于完备。云计算时代,川庆物探着眼于业务扩展的需要,引入云资源,加快了川庆物探信息化建设的步伐。但是,川庆物探原有的IT运维并不完善,IT运维服务模式的改革创新势在必行。

      目前川庆物探共有3个数据中心机房:2个在成都,1个在新疆库尔勒。其中库尔勒为移动式机房,成都1楼机房主要为利旧将下线的老设备,2楼机房为承载川庆物探重要业务应用的集群化服务器和存储资源。

      目前针对机房及设备间的管理都比较完善,服务器和存储设备资源均已池化,但随着支撑业务应用的逐渐增多,资源的合理利用是一个较大问题。

      1 行业特性

      对石油勘探行业而言,IT资源除了存储海量数据的设备外,最关键的就是计算资源。石油勘探行业采集的地质数据数量庞大,而且需要经由地震资料处理类软件和地震资料解释类软件复杂的运算才能完成数据分析工作,这两类软件分别用于地震数据的处理和地震数据的解释,其所需要的运算量相当庞大。

      采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算,再通过矩阵的变化,迭代后会产生更庞大的数据量。最后,输出原始数据处理结果时,又需要进行大量计算,最后变成与原始数据体量规模相似的数据。

      2 项目背景

      2016年底,勤智运维与川庆物探研究中心合作,搭建一体化智能运维平台承担整个研究中心的运维支撑工作。川庆物探研究中心通过部署勤智OneCenter一体化运维管理平台,对川庆成都数据中心机房的核心网络设备、计算和存储集群资源进行了全面监控;通过网络拓扑图、设备性能视图、设备告警视图、自动化运维及定制化功能,直观了解网络设备、技术、存储集群资源的使用情况,并能及时发现设备故障;通过自动化资源调度合理分配、计算、存储资源,由被动运维变为主动运维。

      3 现状描述及需求分析

      3.1 现状描述

      类似川庆物探研究中心计算所这样的科研机构,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心,都面临着同样的信息化运维难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。川庆物探现有3个数据中心,2个在成都,1个在新疆。各数据中心只能负责各自的数据,数据中心之间的远程监控还未实现。

      为了保障勘探项目的顺利进行,为各项目组提供服务,川庆物探研究中心计算所投资建设的高性能计算平台有2000多个计算节点,近40000个CPU,每个CPU的核数超过了10000。硬件上的投入看似足够,但当项目繁忙需要很多应用软件同时在高性能计算平台上运行时,系统的稳定性就会出现问题。川庆物探急需一套专业的一体化运维平台,实现网络、计算、存储资源监控、远程、自动化的调度管理,让投资的硬件、软件资源的利用率更高,为业务顺利开展提供服务保障。

      3.2 需求分析

      随着川庆物探投资建设的高性能计算平台上线运行,各核心网络设备运行基本畅通,计算及存储资源在实际项目中的合理高效利用成为关注的焦点。为此,川庆物探从实际业务出发提出了如下要求:

      1)实现对核心网络设备的全面监控,并可在拓扑视图中直观显示网络架构、设备的运行状态和网络链路的性能和通断情况。

      2)实现对计算及存储集群资源监控,并通过统计视图展现集群资源CPU、内存使用情况。

      3)实现磁盘阵列各文件系统的信息采集,并以图表方式展现。

      4)实现以矩阵方式展现各计算集群节点运行应用分布情况,不同应用以不同颜色区分。

      5)实现计算集群资源通过自动化执行脚本方式自动调度分配。

      4 解决方案

      经过前期需求调研,考虑到需监控管理的计算节点超过1000个,勤智运维决定采用分布式部署方式,数据处理器单独部署一台服务器,两个数据采集器、集中门户等组件单独部署一台服务器,数据库采用Oracle11g单独部署一台服务器。

      1)通过网络拓扑视图展示,自动发现生成网络拓扑,并且关联设备的性能和告警信息,便于进行故障隔离和快速定位。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      1 拓扑图展示

      2)通过勤智OneCenter一体化智能运维平台实现对网络、计算、存储集群资源全面监控,实时展现各资源的CPU、内存、磁盘、接口等性能指标信息。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      2 网络设备

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      3 计算集群节点

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      4 存储集群节点

      将业务资源分组,以统计视图方式集中展现各计算、存储集群资源CPU、内存使用情况。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      5 计算集群资源使用统计视图

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      6 计算集群各节点CPU利用率

      川庆物探数据机房运维:实现资源统一、自动化调度管理

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      7 计算集群各节点内存利用率

      3)磁盘阵列使用情况统计:通过定时代理方式,在指定存储节点上执行脚本命令采集获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      8 存储文件系统一级目录

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      9 存储文件系统一级目录

      4)项目应用矩阵视图展现:按照川庆物探的业务,每个计算集群节点上均会部署运行一个项目应用,例如:Omega、Paradigm等。计算集群节点为Linux系统,勤智OneCenter一体化智能运维平台按照Linux对各节点进行监控,并将川庆物探的项目应用名称同Linux操作系统的“系统说明”字段进行绑定,绑定策略可在后台配置文件中进行维护。

      以矩阵方式集中展现a段、b段、c段等计算集群节点上运行应用情况。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      10 矩阵视图展示

      5)自动化资源调度:通过对计算集群资源的全面监控,及时掌控各集群节点的使用情况,结合资源调度功能实现自动化在线分配节点资源(释放空闲节点的资源到业务紧张的节点中)。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      11 资源调度

      5 用户收益

      勤智OneCenter一体化智能运维平台,能够帮助川庆物探用户找到问题出现的根源,比如哪些资源已经超负荷,哪些资源处于闲置状态,并通过在线资源调度合理分配超负荷资源和闲置资源,使其得到高效利用。川庆物探能够实时掌控计算平台上的应用运行情况,预知分配给应用的计算节点何时达到峰值。如果当前CPU利用率较低,就可以加载将要运行的软件,提高平台处理效率。

      川庆物探反馈引入勤智OneCenter一体化智能运维平台后,业务能够更好地顺利开展,所有可监控的业务都做到了提前报警,计算集群节点使用状况实时可控,实现了资源的统一、自动化管理,投资的软硬件资源利用率更高。

      6 案例亮点

      本项目一期建设亮点如下:

      1)实现对川庆物探核心网络设备、计算和存储集群资源全面监控,结合ITAM平台实现自动调用脚本实现计算集群资源的在线调度。

      2)通过定制化需求对计算集群节点CPU、内存性能指标进行集中展现;以矩阵方式展现各计算集群节点运行业务应用情况。

      3)通过定时代理方式在指定存储节点上执行脚本命令,获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。