Hi 朋友,上期分享了中国建设银行的实践案例,下面让我们来看一看本期内容之“数智赋能,运维转型——中国农业银行AIOps运维数据分析平台建设实践”。

 

建设背景

 

随着业务数字化转型及架构分布式转型的不断加速,商业银行的IT运维逐渐向“双态”运维架构演进,既注重“风险防控,力求安全”的“稳态”,又追求“快速交付,提升体验”的“敏态”。究其本质,这种演进的背后是从“IT运维”到“IT运营”的转型诉求,一方面,要解决隐患发现晚、应急处置慢的问题,让系统从活着向活的好进行转变,另一方面,要解决数据支撑差、管控手段少的问题,让管理从有举措向有成效转变。

 

以数据为基础、算法为支撑、场景为导向的AIOps智能运维技术是运维转型的必然方向。没有数据作基础,转型就无从谈起,无论是故障的发现、定位还是管理的决策、分析,要想实现精细化、智能化,必须从数据中获取知识,用知识辅助决策;缺少算法作支撑,面对指数级增长的海量运维数据,人工分析或者简单的规则匹配很难从中及时、有效的挖掘出有效信息;若没有场景落地应用,则智能运维更是空中楼阁,无法解决实际问题。

 

鉴于上述背景,中国农业银行从2020年开始规划建设AIOps运维数据分析平台,自下而上构建了“数据驱动、引擎赋能、场景导向”的智能化运维技术体系,旨在推动农行运维领域的智能化、数字化转型。

 

总体思路

 

在平台实际建设过程中,我们面临着三个具体的问题:

 

一是如何将分散、割裂的运维数据资产化?在平台建设之初,通过调研我们发现,运维领域的各类数据分散在不同系统,缺乏统一的规范、标准,数据的采集、加工、聚合是要解决的首要问题。

 

二是如何将低效、繁琐的分析过程简单化?因为数据分散,因此用户获取运维数据非常困难,多依赖手工采集,质量参差不齐,且分析手段单一,难以深入挖掘数据价值。

 

三是如何将复杂、多变的分析应用场景化?一些共性类的运维痛点问题缺乏统一统筹,运维数据应用效果较差,一些个性化的场景得不到快速响应,迟迟无法落地,数据无法发挥价值。

 

针对上述问题,农行的解决方案是:

 

数据先行,通过建设运维集市,实现运维领域数据的大集中,并在此基础上构建运维指标体系,以此来实现实现运维数据的有效沉淀与高效共享。

 

引擎赋能,通过搭建面向用户的AI+BI双核引擎实现分析效能最大化,为用户提供便捷的线上分析工具,提升用户触达和分析运维数据的效率,从而提升数据的使用效率及价值。

 

3 场景驱动,统筹建设满足共性痛点的通用场景,敏捷响应各类个性化场景,通过共性场景和个性化场景共同推进的方式来切实推动智能运维场景的落地应用,真正解决问题,切实发挥作用。

 

平台框架

 

农行运维数据分析平台的框架包括数据集市、分析引擎及智能场景三层。

 

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

 

PART 01 数据集市

 

通过建设运维数据集市,将所有运维类平台的数据进行了大集中,包括变更、事件等运维管理类数据,CMDB、接口消费关系等配置类数据,性能指标、告警等监控类数据以及各种运维操作、运行日志及各类IT运营指标数据,通过对6大类运维主题数据的集中管理和统一建模,实现了运维数据的高效共享。将数据入库之后,又通过spark、hadoop、gbase、es等海量数据处理及存储技术,实现了低代码、可视化的海量运维数据处理及存储架构,能够支持灵活、快速迭代各类数据加工需求。同时,结合生产运维领域的各类指标需求,构建了运行、运维、运营三运指标体系,规范化、持续化进行数据赋能,并且明确了运维数据使用和消费流程,支持运维数据的线上申请、审批、使用,实现运维数据获取的统一扎口,并在实际对外提供数据服务的过程中,从需求出发推动运维数据治理,提高运维数据分析质量。

 

PART 02 分析引擎

 

数据分析平台建设了适合运维领域使用的AI算法引擎和BI可视化引擎,AI算法引擎实现AIOps算法组件化建设及共享、在线拖拽式算法设计、模型在线训练及管理了,能够满足一些高阶的分析需求,BI可视化引擎支持在线自助建模、多维度数据钻取、多种自定义可视化组件,能够满足大部分简单的可视化分析需求。

 

此外,农行按照运维分析项目的维度对分析活动进行了全流程线上化管理,包括了运维分析的申请、审批、成员管理、数据共享、成果展示全流程闭环管理机制,大幅提高运维数据的使用和分析效率。

 

通过工具赋能以及管理闭环这两种手段,解决了运维分析效率底下的问题。同时也是运维分析理念上的创新,通过这种租户式的场景,为广大科技人员提供了高效的运维分析手段,从而鼓励广大的科技人员自助开展分析,最大化的发挥运维数据的价值。相比传统的由单一团队开展功能建设,由各个科技人员按需开展自助分析更能符合用户的真实诉求,也更能体现智能运维中用数据赋能的理念。

 

PART 03 智能场景

 

场景建设是智能运维的核心,缺少场景落地的智能运维是没办法起到预期效果的。因此,在数据分析平台整体落地的过程中,通过经典场景与个性化场景相结合的方式来具体推动场景落地。

 

在经典场景方面,针对运维领域的一些共性问题,围绕“事前预警分析-事中运行分析-事后总结分析”这个大的思路,打造了一系列简单、易用、有效的经典场景,解决共性问题。在事前关注运行态势,挖掘运行风险,防患未然,打造了包括批量智能预警、潜在风险挖掘等核心场景;在事中,注重汇聚多方信息,掌控全局情况,辅助异常定位及影响分析,打造了智能根因分析、全景运维视图等场景;在事后,总结历史运行情况,深入挖掘和利用数据,提出优化建议,打造了应用系统画像、健康分析报告等场景。

 

在个性化场景方面,通过AI、BI引擎提供自助式、定制式的个性化分析场景建设服务,快速响应各个用户的个性化分析需求,必要时采取定制开发的形式进行交付,将数据赋能落在细处,促进整体运维能力提升。

 

实践案例

 

本节简要介绍基于数据分析平台实现的几个智能运维场景案例。

 

01  业务态势分析

 

建设背景

 

随着核心系统分布式下移进程的加速推进,运维人员面临的运维压力也与日俱增,如何提前识别业务运行风险、快速定位异常部位、准确分析业务影响是当下亟需解决的问题。传统的方式一般是通过对交易量、成功率、响应时间等指标手工配置阈值的方式来监控系统运行情况,在出现问题后通过查询日志等方式进行故障定位,其监控规则依赖运维人员手工配置,准确性、颗粒度、覆盖面等较难保证,故障分析效率也较低。此外,传统的监控更多是基于系统视角进行配置,无法基于监控信息准确判断业务影响范围。

 

功能亮点

 

针对上述问题,数据分析平台建设了核心业务态势分析场景,该场景基于对核心交易日志的深入分析,实现了业务波动智能检测、触发式多维下钻分析、业务视角影响分析等功能,从风险预警、异常定位、影响分析等三个层面全方位提高核心业务的运维分析能力。

 

1)业务波动智能检测:通过对交易码、错误码、渠道、通道等维度的聚合分析生成相关维度的交易量、成功率、响应时间、错误数等业务指标,基于滑动平均、ESD、LightGBM等算法,综合节假日、工作日、业务高峰等时间因素及不同业务指标特性动态生成指标基线,无需人工配置阈值即可智能识别指标异常。在此基础上综合指标异常情况持续时间、偏离度等因素判断指标异常态势,如业务量显著下降、响应时间突增后保持、错误码首次出现、错误码数量持续上升,在识别到异常波动后及时产生预警提示。

 

2)触发式多维下钻分析:在识别到业务异常后,支持触发式快速下钻分析,通过智能对比当前各维度业务指标相比历史同期、昨日的变化情况智能推荐可能存在异常的根因维度。如在发现某交易码交易量异常上涨时,通过判断该交易码对应的省市、渠道、通道等不同维度指标相比历史的变化程度来判断到底是哪个省市、哪个渠道或哪个通道的异常导致了此交易码的交易量上涨,以此来快速定位异常排查方向。

 

3)业务视角影响分析:通过交易码与业务的对照关系、交易码与系统的对照关系,在核心系统检测出异常后,自动分析当前受影响的业务种类与系统范围,并根据受影响的程度自动进行业务健康度评级,以此来辅助运维人员快速判断当前故障的影响程度,预判事件级别。

 

应用效果

 

业务态势分析功能目前已在农行分布式核心系统全面推广应用,作为监控系统的有效补充,业务态势分析功能具有粒度更精细、规则更智能、视角更贴近业务等优点,核心业务系统的故障发现率提升了50%,异常维度定位定位准确率高达90%。

 

 

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

02  全景运维视图

 

建设背景

 

新技术栈、分布式架构下导致运维对象指数级上涨,业务调用链路更加复杂,应急定位效率亟须提升,而当前由于条线、平台信息割裂、海量指标无法有效精准分析等问题,运维人员无法快速掌握系统运行全貌,也缺乏快捷精准的辅助决策信息。

 

功能亮点

 

针对上述问题,数据分析平台构建了全景运维视图场景,从一站式信息汇聚、海量指标异常检测、智能根因分析等方面全方位提高运维数据的展示、分析及决策辅助能力。

 

1)一站式信息汇聚:对于因各条线、各平台信息割裂,导致运维人员无法快速掌握生产运行全貌信息,无法准确决策的问题。通过对系统关联信息、资源拓扑信息、运维活动信息、性能指标信息的全景汇聚,结合一些拓扑图、关联图、时间线等创新性的展示形式,让用户能够快速、友好的掌握各项运维数据,辅助开展决策。

 

2)海量指标异常检测:对于海量的监控指标全量分析的性能及准确度问题。通过相关性分析算法实现指标的分组分析,大幅降低需要检测的指标数量,解决海量指标全量异常检测的性能瓶颈,并基于不同的指标分类自适应选择不同的检测模型,提升指标异常检测准确率。

 

3)智能根因分析:对于故障根因较难定位的问题。通过构建系统运行健康度实时评估体系、打造AI算法与专家经验相结合的全方位根因定位平台等方式,实现对系统运行情况的智能洞察与快速定位,能够智能推荐当前最可能导致生产运维的异常指标或行为。

 

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

 

应用效果

 

目前农行智能根因定位场景已在生产上得到了广泛应用,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,其中AI根因定位已覆盖全部应用系统,专家定位流程覆盖70余个系统共积累200余条专家经验,生产异常的定位时间压缩至5分钟以内。

 

03  变更风险评估

 

建设背景

 

据业内某机构统计,有70%以上的生产故障是因为投产变更导致,如何有效方防范及发现变更导致的运行风险是有效遏止生产事件发生的关键手段。传统的变更风险防控手段一般是在变更前进行变更评审,在变更后进行技术和业务验证,这种方式存在两个问题,一是变更评审阶段主要依靠变更申请人填写的变更信息进行审核,依赖较多人为因素,且在当前变更数量日剧增长的情况下,无法对每个变更都进行有效的评审。二是变更后的技术或业务验证有效性较难保障,人为设计的验证案例无法覆盖全部业务场景,也较难真实模拟客户交易情况。

 

功能亮点

 

基于上述问题,数据分析平台针对性的建设了变更风险评估场景,该场景基于对变更相关的工单数据、配置数据、关联数据、指标数据的深入挖掘,在变更前、后分阶段从不同的维度和视角探测变更风险,有效提升了变更的管控水平和风险识别能力。

 

1)变更前-智能标签生成:梳理可能影响变更风险的关键要素,制定对应的标签及生成规则,利用统计分析、NLP等数据分析方法提取变更标签,结合重要程度为每个标签设定权重,并综合变更总体的权重得分在变更评审时智能推荐给评审人重点关注。如从变更内容或测试报告中智能提取变更涉及的交易码,进而判断本次变更是否影响重要业务,生成变更重要度标签;从同系统同类变更的历史成功率、耗时、回退次数等数据判断变更风险级别标签;从变更中涉及的资源范围、代码基线数量自动生成变更规模标签等。

 

2)变更后-指标变化探测:通过对系统变更前后各项监控指标、日志数据的变化情况的分析来判断系统运行态势是否因变更导致大的变化,进而评估变更风险,如系统变更后相比变更之前交易量是否出现大幅下降、响应时间是否出现大幅上升、是否存在新增错误码、某类业务异常数据量是否出现大幅上涨等。

 

应用效果

变更风险评估功能目前正在分布式核心、手机银行、快捷支付等系统试点应用,在试点期间多次捕获由变更导致的指标态势变化,其中2次通过该功能成功识别出异常变更信息,有效遏止了生产风险。后续,数据分析平台将继续深化该功能建设。

 

 

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

未来展望

 

未来,运维数据分析平台将重点关注以下三方面发展:

 

一是注重智能运维的体系化服务能力建设,智能运维是一个很大的概念,单纯一个运维数据平台的建设是无法完全支撑的,需要通过平台提供的数据服务能力、算法分析能力以及场景建设能力,持续为用户、为运维平台、为管理过程全面赋能,才能逐步推动其在运维数字化转型的过程中发挥更大作用;

 

二是关注大模型技术在运维领域的应用,大模型所表现出的卓越的理解、生成、调度等能力,在与运维数据深度结合后,有可能加速智能运维的落地进程,在智能问答、自动控制、辅助分析等领域均有着很光明的应用场景;

 

三是继续拓宽AIOps在运维运营领域的应用范围,除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也是数据分析平台建设的下一个重点方向。

 

“实践案例分享-农业银行”编委介绍

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

连载五 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-中国农业银行

 

 

 

特别鸣谢

 

中国农业银行股份有限公司 栾   勇

中国农业银行股份有限公司 穆   琼

中国农业银行股份有限公司 陈文建

中国农业银行股份有限公司 王   灿

中国农业银行股份有限公司 徐佳琦

中国农业银行股份有限公司 李心玥

 

 

精彩预告

 

 

下期将分享云智慧的实践案例之“基于运维数据治理的可观测性落地实践”,详情敬请关注“双态IT论坛BOA”公众号!