毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 延展阅读 > 新闻特快 > 新闻特快

    深度揭秘腾讯云TSF日调用量超万亿次背后技术架构

    2018年03月19日 17:57:55   来源:飞象网

      腾讯云TSF是整合外部开源框架和腾讯内部历经多年锤炼的PaaS平台打造而成的企业级分布式应用服务开发与托管平台,本文重点对TSF中负责服务托管的PaaS平台进行揭秘,从技术角度解析TSF 平台是如何每天应对万亿次调用的服务托管与治理。

      TSF PaaS平台的前身是CAE(Cloud App Engine),其核心架构是参考Cloud Foundry设计研发的。为了给开发者提供更加便捷的服务,TSF和公司很多基础服务打通,例如腾讯网关TGW、名字服务L5、内部鉴权服务、以及消息队列等,使得用户可以在TSF平台完成一站式开发、上线、托管服务;除此之外还支持对托管在平台上的应用进行健康检查、进程监控、日志汇聚展示等服务。让开发者只需关心自己应用代码,而其它一切事情,都由平台为其提供,极大地提高了开发者的效率,降低了运维成本。下图简要描述了PaaS平台和不同角色用户之间的关系。

      整体架构示意图

      目前腾讯内部有上万个应用托管在TSF PaaS平台,这些应用每天的请求量超过万亿次。下面对TSF PaaS平台的所解决的问题及核心能力分别展开介绍。

      弹性扩展能力,真正实现无人值守

      在公司众多的互联网业务中,往往有这样的一些业务场景,海量用户突然同时去访问一组服务,如限时抢购、秒杀活动,或者游戏整点开服,tips弹窗都会触发用户的此类行为。服务器经常会面临在短时间涌入大量请求,快速的吃掉CPU和内存,造成服务器瘫痪,前端用户进一步重试,导致雪崩现象加剧。因此在一些非常重要的业务搞活动的时候,需要运维事先准备好大量的机器(预估值要远远大于可能实际值),部署好程序,等待活动的到来。如果有一套自动伸缩机制,活动时可以自动扩容,不需要时可以很方便的下线,整个运营将简单很多,弹性伸缩能力是PaaS平台的基础能力之一,TSF 根据公司内部不同业务需求场景提供多种方式的弹性规则:

      规则一:可以对应用所在节点在一定时间内的物理负载情况、请求量、延时、返回错误码等多维度进行配置规则,一旦触发弹性条件,平台将自动进行相应扩缩容操作。

      规则二:对于请求量有周期性波峰波谷规律的应用,可以配置定时弹性伸缩,入下图所示。

      图:定时扩缩容规则

      无论是动态伸缩还是定时伸缩,其后台实现原理是类似的,整体调度架构如下,

      图:弹性伸缩模块示意图

      配置系统: 用户在控制台根据业务情况,设置弹性伸缩触发规则,规则包括以下几个维度:

      采样间隔:1~60s,可任意配置,平台具备秒级别采集数据的能力。配置规则中需要制定连续高负载次数,服务自动扩容首要条件就是服务分组下至少存在一个实例连续上报几次上报高负载数据。同时还要配置冷却时间,在冷却时间平台会忽略实例高负载信息,这样可避免在扩容还没完成期间,再次触发扩容。配置规则中的性能指标,包括CPU、内存、磁盘、网卡流量、TCP连接数、请求量、错误比例、延时大小等的维度。

      通知中心: 负责对外推送的模块高负载信息及扩容决策信息。

      流程系统: 通知中心收到信息后,触发自动扩容流程,包括资源部署,程序包安装,配置下发等。

      弹性伸缩能力在微信红包诞生的那个春节发挥到了极致,2014年春节微信红包出乎所有人的意料一夜之前红遍大江南北,每一秒钟都有大量用户涌入,TSF 根据事先配置的规则,自动弹性扩展,成功支撑了突入起来的海量请求。为微信红包初期的发展赢得了宝贵的时间,下图为自动扩容任务列表,可以看到同一个服务在短时间内自动触发了很多次扩容操作,大大减轻了运维压力,真正达到了无人值守。

      图:弹性伸缩任务查询列表

      精确流量控制能力,业务指标可视化展示

      TSF平台可以完成对应用整个生命周期的管理,从代码开发到CI/CD再到版本的升级与回退。在新功能上线过程中通常需要一个灰度过程来控制能访问到新版本的流量比重,如果发现了异常问题需要及时回滚到稳定版本。另外,灰度发布并不是短暂的过程,可能会持续很久。例如某个重大的框架或者系统更新可能会持续很久,有可能整个服务在几个月内都是新旧并存,甚至有可能需要两个版本分别各自迭代。而从产品的角度来看可能就会更灵活,很有可能线上有五六个方案都在收集数据,每天有了一些新想法都要上一些小版本看效果,每个版本上线后可能都要再各自做优化调整观察效果。这种情况可能线上就永远不会有一个统一的版本灰度反而是个常态来应对不断变化的需求和挑战。

      TSF 灰度发布系统包括以下两个方面

      精确的流量分发控制:从运维风险控制的角度,需要把受影响的流量控制在一个精确的范围内,在上线前就知道哪部分用户会有问题,而不是真出问题谁受到影响都不知道。一个常见场景是新版本只让公司内部的员工能访问到,再一个市、一个省的一点点推上去。TSF 灰度发布系统可以对应用实例进行分组操作,新版本按照分组来灰度发布,将一部分流量导入灰度分组,观察是否符合预期,具体导入那部分流量可以是公司内部员工,也可以按照其他维度来切分。

      监控系统的支撑:流量精确分配只是第一步,接下来更重要的是获得多个版本的关键指标。对运维来说可能是看错误率、吞吐量、延迟、CPU内存消耗这些系统层面指标。对于产品来说可能是要看点击率、pv、uv 等业务指标的变化。这些都可以在PaaS控制台以图表的方式展现出来,方便对下一步灰度做出决策。

      完备的日志与监控系统,助力企业智能运维

      完善的统计监控与日志系统是一个PaaS平台最基础的能力,没有之一。TSF的监控与日志系统底层采用EFK(ES+ Filebeat+Kinana)方案搭建而成,监控数据维度主要分为以下几类:

      a.访问量:请求数、成功数、失败数、成功百分比、同比环比波动百分比

      b.响应包大小、响应延时

      c.机器负载:CPU、内存、读写磁盘、TCP连接数、出入流量、出入包量

      d.进程监控

      其中前两类采集频率是分钟级别的,机器负载和进程类的监控是秒级的,各个业务可以根据实际需要进行个性化配置。

      上述以“监”,在“控”方面,支持字符串类型的微信、短信、邮件告警,另一方面支持如下图所示的曲线告警,用户可以根据需要来配置触发告警条件。

      同时TSF 后台也会根据历史上报数据和告警策略进行大数据分析对比,进行智能运维。

      图:统计监控示意图

      不断整合创新,打造TSF强大分布式作业能力

      TSF PaaS平台的分布式作业系统是基于Quartz开发而来的,充分继承了Quartz强大的调度功能和丰富多样的调度方法,以及其分布式集群能力。

      通过TSF 分布式作业管控平台不仅可以完成所有的运维操作,还可以自动选取负载较低节点来下发计算任务,充分利用设备资源。除此之外所有作业的执行详细情况都可以在控制台进行查询,从下图可以看出目前分布式作业平台一天大约执行几十万个任务。

      图:分布式作业示意图

      总结:本文针对腾讯内部接入TSF平台的业务在日常运营过程中重点关注的几个核心功能点来介绍了TSF平台服务生命周期管理部分的核心能力,如想进一步了解实习技术细节欢迎进一步交流。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: ]
    分享到微信

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。