Hi朋友,上期分享了新华三的实践案例,下面让我们来看一看本期内容之“云智慧——智能业务运维之银行运维数据分析平台建设实践”

 

 

前言

 

金融领域的运维服务正从制度与流程驱动向数据与算法驱动的智能运维时代演进,智能运维作为人工智能在运维领域的重要应用,是运维领域的全新模式。针对银行业运维数据分析的需求痛点,借助大数据、人工智能、自动化等技术以及业务运维理念,通过多数据源的分析,并结合智能算法,增强排查问题的能力,有效缩短事故恢复的时间,有效的提高运维的效率,帮助运维从各个维度挖掘数据的价值,通过可视化直观监测、全局把控业务与IT运行状态,提升银行企业决策与管理能力。

 

银行业务管理及运营模式转型是全面数字化转型重要基础内容,总体框架设计了前台服务、中台支撑、后台保障等业务管理运营模式,重点工作就是围绕全面数字化转型重要基础内运营管理模式和信息系统支撑等方面的规划建设。运维统一平台下的场景需求实现的规范标准及方法论体系建设是数字化转型的重要能力之一。根据中台化架构和平台化系统建设模式特点,建立从需求提出到上线运营全流程的规范标准及方法论,保证业务需求在系统平台上快速落地实现,与之匹配的智能化运维平台建设成为重点工作内容。

 

 

背景

 

国内某大型城市商业银行从传统技术架构向分布式架构转变,从单体应用系统向微服务转变,从传统技术向开源技术转变,由于中台化应用建设路线的不断演进,给运维组织的调整和优化提出了新的挑战,对运维人员技能提升与更新也提出了新的要求。

 

  • 人员挑战

 

与传统技术发展路径不同,云计算技术专家大多集中在互联网公司。由于开源技术的变化很快,研究这些技术的大多为创新型公司,一般规模小、不稳定,难以提供持续、稳定的技术支持,并且缺乏对银行应用特点的理解和实践经验。内部科技运维团队应组织人员针对于云平台、分布式数据库、微服务等新兴技术进行系统性学习,并适时引入专业人才,打造一支业务能力强、成长性高的专业运维团队。同时,为更好的应对新技术架构的调整,在保证现有应用与业务安全稳定运行的基础上,并结合现有人力资源配置情况,对运维组织架构进行优化,提高管理效能,以适应“敏捷运维”的要求。

 

全行拟定了信息科技发展三年规划,计划建立智能化运维体系,远景目标包含构建智能运维的能力框架,提炼智能运维的特征,和完善通用能力的建设,通过场景分析、场景构建、场景交付和效果过程,实现智能化运维远景蓝图。

 

  • 运维管理体系挑战

 

传统运维领域经过近二十年的发展、积累和完善,各行业已经基本建立了以ITIL为核心的规范化、流程化的运维管理体系,以保障业务的安全性、稳定性和可用性。传统运维“竖井式”的组织结构解决了开发和运维之间的职责界定问题,但以ITIL的流程化、规范化为核心的运维模式,面临着满足敏捷业务对IT交付的效率与速度需要的挑战。无论是经典ITIL最佳实践,还是Devops、SRE等新运维理念都已无法全面覆盖的业务形态,必须站在战略和创新的视角,取长补短,有效融合ITIL、DevOps、SRE等运维实践和理念的优势,形成双态IT形势下的新型运维方法,即双态运维。

 

  • 运维工具挑战

 

传统IT运维工具更侧重解决“监、管、控”的单点技术运维问题,随着IT技术的演进,借助运维工具平台构建新IT技术管理和敏捷运维能力。敏态IT运维通过平台化思路管控大规模、复杂的IT运维,借助新IT架构和大数据智能化手段,强调实现“过程化管理-监控-自动化操作”的端到端整合平台,形成运维大数据不断优化和丰富运维场景,提升人、IT资源和IT运维工作的协同能力,最终实现智能化的IT运维。主要变化体现在“营”、“管”、“监”、“控”及其他技术支撑能力等领域的提升。

 

  • 落地实践

 

面向分布式架构新核心系统的特点,对运维能力也提出了新的要求,主要体现在事件处理驱动故障快速响应处理能力、运行数据驱动的日常主动维护能力、发布/变更驱动的应用敏捷交付能力。

 

面向分布式核心运维要求,运维对象、运维要求和运维手段都发生了较大变化,需要重新思考与设计,现阶段重点关注运维建设领域包括:

 

  • 云原生监控领域;

 

  • 云原生的配置管理领域;

 

  • 智能分析领域;

 

  • 运维数仓领域;

 

  • 共享服务中心领域;

 

  • 研运一体化领域。

 

运行数据驱动的日常主动维护能力,重点在于智能化场景的建设,以业务为视角,持续推进智能化场景落地工作,智能化场景包含业务容量预测、告警降噪、交易数据看版、日志异常检测、动态告警等智能化场景。在项目建设一期阶段,重点在于运维数据中台建设工作,经过6个月的项目建设工作,接入了10余种运维工具的数据源。

 

(一)落地实施方案

 

结合该行业务系统运维数据特性,通过运维数据特征分析,发现运维数据大致可以分为以下七类,即:指标类数据、日志类数据、告警类数据、配置类数据、关系类数据、运维工单类数据、知识类数据。数据源较庞杂,数据标准不统一,数据强时序性;高吞吐,高并发。该项目利用大数据技术手段接入各类运维数据,运维大数据平台进行数据加工、清洗、整合,对运维数据进行治理,建立运维数据标准。
 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧
 

图1采控中心架构

 

建立重要系统画像:按照生命周期、业务敏捷性、监控覆盖率、信创覆盖率、交易周期等不同纬度描述体现业务系统特性。
 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

图2运维画像

 

建设指标管理体系:通过立体化指标体系,整理纳管业务层、应用层、数据库层、中间层、主机层、网络层、存储层等所有类型的指标数据,建立指标库模型,对指标进行标准化定义、分类、属性划分,满足对指标的统计、管理、质量审计的场景要求。

 

该银行项目建设覆盖了柜面前端、新一代零售、核心、企业服务总线、智能汇路、现代化支付、个人网银、个人互联网、密管共计10余个业务系统,监控对象覆盖业务应用、数据库、中间件、服务器、虚拟机、小机、服务器等类型对象共1000余个,接入指标15000余个,设计了2000余个生死指标、核心指标。

 

 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

图3智能运维平台建设规划

 

(二)统一数据采集建设
 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

图4数据采集能力

 

智能运维平台通过文件、数据库、API、消息队列、ES等多种异构数据类型接入能力;数据接入过程全程可控;同时具备数据推送和拉取能力;经长期学习后,可识别不同数据接入场景,动态自动调整采集频率、采集限制策略等;异常中断后,具有断点重传或续传机制能力;具备实时数据和离线数据处理能力,实时数据处理延时小于1分钟。在数据接入处理过程中,有数据清洗、转化、矫正等能力;对于接入的数据,具备数据质量分析能力,定期生成报告。

 

(三)运维数据加工管理建设

 

针对运维数据进行上层的数据加工管理。实现对采集的数据进行数据清洗,包括批量数据处理和实时数据处理。同时,数据服务层实现数据指标的重要程度定义、健康度配置等。最终,实现对数据的消费服务,实现相关可视化大屏、数据深度分析、告警等应用场景。

 

该项目建设过程中设计了3种特色表引擎,包括日志数据表引擎、时序数据表引擎和调用链数据表引擎。平台另外提供了通用表引擎,经过聚合后的运维数据采用全对称的分布式架构落库方式及LZ4高性能数据压缩算,实际数据存储量支持数百PB级别。
 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧
图5数据存储能力

 

(四)智能化运维场景建设

 

  • 告警降噪场景,在该银行项目中,接入基础监控中主机的CPU平均使用率、内存使用率以及丢包率三个指标及对应告警信息,接入应用性能监控中响应时间指标及对应告警信息,利用告警压缩算法,在实际运行中,客户日常告警抑制率可达到95%,降低冗余告警消息对运维工作的干扰,提升了客户运维人员工作的效率。

 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

图6告警抑制过程

 

  • 根因分析场景,在该银行项目中,接入基础监控、应用性能监控、配置管理等平台数据,包括系统整体的状态信息(包括横向/纵向拓扑、节点属性等)和时序信息(包括告警消息、指标数据等),利用根因分析算法,包括ForFaDE(基于线性时序逻辑的根因定位引擎,它利用模型检测和图搜索技术搜索系统给定现象的起源事件)、MeREx(相关性制导的故障定位引擎,它利用相关性计算节点上指标的根因评分,并进行指标下钻直至找到故障指标)、NoRan(相关性制导的故障定位引擎,它利用相关性证据和随机游走过程来给出节点的根因评分),对问题所产生的原因进行分析。

 

  • 单指标预测场景,在该银行项目中,接入基础性能指标与业务指标数据,利用动态基线算法CWRnn,通过构建神经网络模型,根据时间序列过去的模式来推断未来时间序列的模式,在指标的历史数据上进行训练,提取特征学习历史数据中普遍存在的规律,从而针对指标未来一段时期的发展变化进行预测。在实际运行中,客户针对基础性能指标和业务指标分别制定了预测未来小时、天、周、月时间范围内变化趋势,预测平均准确率达到95%以上,实现了针对资源扩容计划、交易量预测等场景,助力IT部门合理规划资源、预防业务风险。
     

    连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

    图7趋势预测示意图

     

    • 批量业务影响关联分析,建立系统批量关系的运行拓扑视图,实时显示全行系统批量的运行状态,任一节点批量出现异常,通过批量关系运行拓扑视图展示出最终的业务影响。整体业务流程以告警为触发条件,通过批量之间的关联关系,生成拓扑图,会根据告警级别显示不同的颜色,预警列表中显示受当前告警影响的所有关键批量的预计完成时间和设定的完成时间之间的差值,时间差越小,排序越靠前;通过后台设置,针对不同的时间差(60分钟、45分钟、30分钟、15分钟)显示不同的颜色,加以特殊提示,统计当前应用下可能受到影响的批量任务。
       

    连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

图8批量影响预测示意图

 

  • 智能自动化运维能力,包括:1.可视化编排工具2.内置千余原子化工具集3.自定义巡检报告4.高并发、即时交付5.Agent安全熔断等等。通过建设安全合规、自动巡检、批量自动化、应用发布等自动化场景,对数据中心内所有软硬件、应用业务进行了全场景自动化运维工作;为数据中心降本增效、安全合规、降低风险、智能化场景提供强有力的保障支撑。提高了数据中心70%整体运维工作效率,降低了30%运维操作风险。

 

 

总结与展望

 

未来各系统运维,在系统健壮性、业务数据维护、标准化部署、标准化发布/变更、标准化监控、标准化故障/应急处置等维度开展重点工作。日常运维工作中,重点关注集中交易成功率,外围交易成功率监控,银联交易成功率监控,交易时长监控,长时间无交易监控,交易量环比监控,异常交易监控,交易量监控;服务队列、服务数、域链接、文件、日终、对账、错误日志、业会监控。

 

传统运维领域,对于指标的异常告警中告警不准确,依赖人工判断。在智能化运维阶段通过建设智能化的运维平台,采用基于算法的动态阈值等技术,有效减少故障发现时间、解决不同指标异常检测困难的问题、实现无需人工配置规则阈值、从而大幅提升现有运行监控系统的可用性,节省人力运维成本。

 

通过指标库构建健康度检查能力,及时反馈系统运维运行情况。基于丰富的技术栈,形成业务系统全局拓扑,通过业务系统拓扑,快速分析业务系统组成关系、业务流转过程及各模块健康状态,帮助IT人员掌握业务系统整体运行状态。建设基于大数据技术和机器学习算法,对来自各种监控系统的告警信息与数据指标进行统一的接入和处理。基于动态基线等多种算法,实现事件异常检测、根因分析、智能预测。为金融科技不断创新、快速迭代的需求进行科技运维的自我改变,从而满足金融业务不断拓展的需要,满足需求与外部环境不断推动传统型数据中心自我优化与转型的要求。

 

· “实践案例分享-云智慧”编委介绍 ·
 

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

连载十一 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part6-云智慧

 

· 精彩预告 ·

下期将分享必示科技的实践案例之“智能运维在证券行业的落地实践”,详情敬请关注“双态IT联盟BOA”公众号!