
转型背景
党中央、国务院高度重视数字经济发展,作出了一系列重大决策部署。习近平总书记强调,数字经济是全球未来的发展方向,要加快推进数字产业化、产业数字化,推动数字经济和实体经济深度融合。大型商业银行作为“经营数字”的行业,主动拥抱科技革命、适应产业变革是适应社会发展的必然,也是锻造核心竞争力的不二选择。
中国建设银行早在2010年就拉开了数字化经营实践的序幕,即启动了新一代核心系统的建设,对业务流程进行了企业级再造,实现了从“单个系统竖井式作坊开发”到“企业级系统工程工厂研发”的转变,为数字化经营奠定了坚实的基础。2018年,建设银行正式发布《金融科技战略规划》,明确金融科技战略实施方向——建立技术与数据双轮驱动的金融科技基础能力,对内构建协同进化型智慧金融,对外拓展开放共享型智慧生态。作为金融科技战略创新成果实施落地的主要技术阵地和科技底座,为了能够有效地管理快速膨胀的IT资产、支持百万台设备供给、满足业务连续性、实现自主可控,建行运营数据中心主动作为、精准发力,通过打造智能运维平台等一系列举措,努力实现数据中心的转型与发展。
建设方案
我国在“十四五规划”和2035年远景目标纲要中提出,支持有条件的大型企业打造一体化数字平台,强化全流程数据贯通,形成数据驱动的智能决策能力,提升企业整体运行效率。建行的智能运维体系正是基于全景运行数据,将自动实施和智能分析作为提升运维效率和精准处置故障的重要支撑,从安全风险管控、快速业务响应、高效运维交付、标准运营支撑四个方面入手建设全方位的数字化运维应用,通过企业级、智能化的运维服务助力建行数字化转型。
建设成效
目前,建行的智能运维平台已全面投产,伴随着建行运营数据中心管理的云服务器数量达到十万级的水平以及日均承载的交易量达到百亿笔的规模,智能运维的价值日益凸显,在产品创新、技术创新、管理创新等多个方面取得成效,具备感知力、控制力、决策力的企业级智能运维体系基本建成,运维能力提升进入快车道,有力保障了建行信息系统的安全稳定运行和集团业务的稳健发展。
(一)安全风险管控之应急提升
1.背景/目的
应急历来是运维工作的痛点和焦点,其重要程度不言而喻,特别是随着应用系统复杂度和体量的不断增加,事件应急已经成为一门“综合学科”,涉及监控发现、告警通知、问题定位、故障处置、报告复盘和应急组织等一连串过程,以及应用软件、系统软件、IT设备、基础设施等许多对象。因此,应急能力的提升是众多具备个别智能特征的简单运维场景融合形成的混合场景,需要综合应用多种智能运维能力。2021年,建行针对应急效率提升这一课题开展了一系列的研究和探索,从应急的视角去识别、分析和打通相关的流程和工具,并结合用户体验和量化评估的结果进行了持续改进。
2.解决方案/建设要点
本次专项工作主要围绕提升告警时效性、改进告警体验、加快影响范围确认速度、加速应急组织及报告、加快处置速度等五个方面进行,涉及90余项具体的分解任务,其要点包括:
-
提升告警时效性
统一各领域监控工具的轮询间隔和压制策略,提升监控处理性能,提高告警时效,同时减少告警通知的数量,改善用户体验。
-
加快影响分析
梳理包括系统、模块、交易码等描述信息在内的应用基础配置数据,基于图谱关系分析基础设施故障的影响范围。
-
提高处置速度
优化自动化工具纳管设备的探活机制,减少无效耗时;构建日志表格、网络表格及告警表格等视图,提升问题排查效率;针对重点事件充实具体场景的自动处置能力。
3.实施效果
-
实现了各领域告警同频共振,告警时效性达到1分钟以内。
-
主要级别告警聚合率从95%左右提升至99%以上,人均日接收告警短信数量减少逾30%,其中故障期间告警数量TOP3的系统平均减少了7成以上的告警。
-
平均故障定位时间缩短近30%。
(二)快速业务响应之敏捷投产
1.背景/目的
为更好地支持金融科技创新发展,加速市场需求响应和功能释放,降低投产变更对业务的影响,需进一步提升应用版本投产的敏捷性和可靠性。
2.解决方案/建设要点
-
构建端到端、全线上敏捷投产流程
实现开发、测试、生产全流程工具及流程的对接,实现投产信息、版本文件的线上传递;流程工单自动创建;精简投产发布和变更流程,减少人工处理,提高处理效率,缩短投产周期。
-
驱动应用投产自动化实施
标准化、规范化变更操作步骤及实施工艺,将版本的获取、分发、备份、检核等通用变更内容封装成原子操作,沉淀为平台基础能力。提供分组编排、定时执行、并行执行、协同控制等自动化执行能力,并与流程、监控、作业、容器等平台对接,实现投产变更内容的全自动实施与管控。
-
实现投产前、中、后全方位风险管控
投产前,基于投产内容、投产方案、版本介质等信息对投产变更风险进行量化评估,并利用专家经验库,自动识别变更方案、实施工艺、协同控制等方面的风险;投产中,实时采集相关信息并监测变更过程,及时发现严重问题并进行阻断;投产后,自动触发对关键交易的验证和系统运行状态的巡检,并利用资源、交易类指标进行变更前后的比对及容量预测,提前发现和干预变更引发的问题,降低业务影响。
3.实施效果
-
投产敏捷性方面:投产流程处理效率提高约70%;实现应用版本全自动化部署,具备了“无人值守”的变更能力,投产变更实施效率提升50%以上。
-
投产可靠性方面:实现投产前、中、后全方位风险管控,避免人为误操作,降低了实施风险。
(三)高效资源交付之智慧机房
1.背景/目的
在业务和IT系统规模快速发展的背景下,IT基础设施规模日益增加,机房有效运维和管理的难度不断加大,而现有传统的机房管理模式难以满足基础设施和业务快速发展的需求。
为了解决当前机房管理过程中的各项痛点,顺应行业智能化运维的发展趋势,整体提升机房管理的数字化和智能化水平,建行于2020年起实施了“智能运维之智慧机房”项目,打造了支撑运维和运营、符合集团战略、具备本行特色的智慧机房管理平台,实现多地多中心的机房智能感知和智慧管理。
2.解决方案/建设要点
基于建行的现有架构,结合实际业务需求,该项目着力于机房资源管理、IT设备的实施管理和机房的日常运维管理等实际工作场景,构建了包含展示层、业务层和数据层的整体平台架构,设计了统一视图、智能布局、物联定位、实施管理和故障管理等五大功能模块。其中:
-
智能布局
构造包括IT设备、机柜、部署模型在内的三级业务模型并实现数字化管理。利用相关算法有效分析电力、空间、承重、成本等机房资源综合信息,给出最优布局方案,避免人工导致的低效和误差。精细化管理机房资源,为决策提供数据支撑,提高资源利用率,积极实现数据中心绿色节能的战略目标。
-
物联定位
实时采集和录入资产信息,掌握在架设备位置信息,准确、安全、高效地管理数据中心实物资产,实现在架资产的自动盘点。通过位置指示灯帮助人员快速、准确地定位设备,降低误操作率,缩短故障处理时间。
-
故障管理
提供机房环境、计算及存储领域的故障快速定位、影响分析和处置。通过饼状、柱状及折线图从不同维度展现故障的历史、现状及趋势。提供跨领域的数据信息获取、视图式钻取及展示。用户可以自定义新的模型规则,利用相关数据对故障进行预测及判定、根因分析、影响评估并给出处置建议。支持用户根据自定义模型对设备进行画像描述,从不同维度生成设备画像等。
3.实施效果
该项目在展示、管理、实施、运维和分析决策等五大类、17个常用工作场景中实现了工作模式的智能化提升。其中:
-
实现一键式智能布局、一次性实施,提高了机房利用率,模型化后机房碎片率降至5%以下。
-
资源高效分配使落位效率提升超70%,10万台量级设备布局效率有了显著提升。
-
快速识别和自动处置硬件故障,比人工方式减少约90%的时间。
(四)标准运营支撑之指标体系
1.背景/目的
运营服务能力是数据中心“数据运营”转型评估的重要标尺,而要想度量、评估和提升这种能力,则需要对相关数据进行分析,提炼运营管理活动的要素,展示数据中心的运营全貌,形成一套能够监测运营效果和衡量发展方向的技术运营指标评价体系,以便为管理及运维人员提供各种维度的数字化运营信息,从而以此为抓手提升数据中心的运营管理能力和决策水平。
2.解决方案/建设要点
技术运营指标评价体系整体解决方案包括技术运营指标体系设计、运维大数据服务平台建设和技术运营指标评价体系应用系统开发三大部分。
-
技术运营指标评价体系设计
围绕“安全、高效、绿色、创新”的数据中心运营目标,提炼出“安全运维、高效运营、资源规模、创新发展”四大关键成功因素,采用自顶向下的设计方法逐层分类拆解,形成五级架构的指标体系。该体系中的指标基于客观事实数据进行演算,能够反映真实的运营状况。通过这种量化评估的方式,既可实现自身状况的历史比较,也可用于同业交流时的标杆分析,还可以通过高级指标的定制及算法的调配来关注具体的领域、辨别发展的方向。
-
运维大数据服务平台建设
通过建设运维大数据系统,对运维数据进行采集、清洗、转换和加工,完成数据质量校验和评估,推动数据治理,提升数据质量。建设基于大数据的运维全业务领域数仓系统,构建五大主题、一致性数据模型和统一指标模型;通过数据模型的规范整合,形成数据中心优质数据资产;通过数据集市层提供指标数据得分的实时计算、多维度组合查询、分析挖掘等丰富的数据服务。
-
技术运营指标评价体系应用系统开发
技术运营指标评价体系应用系统采用了松耦合的设计理念,分为指标体系和业务场景应用两层。指标体系层提供灵活的指标建模能力和评分算法库,实现指标体系的在线管理、指标灵活扩展和多样化组合;业务场景应用层系提供展示、分析、报表三大类应用场景,通过个性化展示视图,分层分类地展示指标,多维度多视角地观测IT运营情况,为各级领导、员工提供数据中心的数字化运营信息。
3.实施效果
技术运营指标评价体系的建立,实现了数据的自动采集、指标的科学自动计算及展示。目前已成功构建了200多个各层指标,可实时观测运营情况、多维度多视角评价技术运营能力、跟踪监测运营服务质量。
-
展现管理全貌,洞察运营能力
提供多层次、多维度的可视化领导视图,方便管理者即时洞察数据中心技术运营各项活动的能力全貌,快速了解数据中心当前和历史的数字化运营水平与关键能力。
-
提供信息钻取,协助问题定位
可通过指标名称、维度及维度对象、时间周期等数据检索方式,查看指标数据、事实数据、明细数据等三类数据,快速找出问题;可从上层指标逐层向下钻取,直到相关的业务运行数据记录,从而快速定位存在的差距及问题。
-
分析最优路径,辅助科学决策
可利用技术运营指标评价结果与权重影响,计算路径权重与指标数据异常度,提供数据中心相关运营能力的最优提升策略。
· “实践案例分享-建设银行”编委介绍 ·
特别鸣谢:
中国建设银行股份有限公司 张明
中国建设银行股份有限公司 安卫杰
中国建设银行股份有限公司 闫慧
中国建设银行股份有限公司 冀皓
· 精彩预告 ·
下期分享的内容为“数据赋能,场景驱动——中国农业银行AIOps智能运维实践案例”,详情敬请关注“双态IT联盟BOA”公众号!