Hi 朋友,上期分享了中国光大银行的运维数据治理实践案例,下面让我们来看一看本期内容之 “擎创科技——与某国有大行共探数字化发展,迈向一体化数智运维阶段”。

 

前言

 

2023年,是我国加速发展信创数字化的昭示之年。由中共中央、国务院印发的《数字中国建设整体布局规划》中提到要基本形成横向打通、纵向贯通、协调有力的一体化推进格局。数字基础设施高效联通,数据资源规模和质量加快提升,数据要素价值有效释放,数字经济发展质量效益大幅增强,数字治理体系更加完善。到2035年,数字化发展水平进入世界前列,数字中国建设取得重大成就。金融行业作为我国经济发展的重要支柱之一,不仅要做到数字化转型的高效完成,更要实现全面国产化。

 

另外,《金融科技发展规划(2022-2025年)》也从宏观层面,对我国金融科技的发展提出了顶层设计和统筹部署的要求,明确了要建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。

 

背景

 

某大型国有股份制银行正经历分布式架构和云原生转型的快速变革,给现有运维能力带来了极大的挑战。在信创要求的前提下,总行亟需完成从专业工具运维向一体化运维平台阶段的转化,分行亦需要尽快脱离手工运维阶段,这便对现有的运维组织架构、运维标准规范、运维工具能力以及运维人员的技术手段提出了更高的要求。

 

总行挑战

 

当下总行数据中心各领域专业工具繁多,虽然能够全面覆盖业务场景,但无法统筹管理,应急处置、告警收敛等运维场景能力无法做到全领域支撑。另外,由于过渡依赖厂商产品,没有形成定制化产品能力,也无法进行快速迭代升级,因此企业虽大但能力却还无法与体量相匹配。加上云原生等新兴技术的崛起,总行的运维工作受到了极大的压力。

 

分行挑战

 

与总行状况不同,分行运维能力仍停留在传统阶段,以基础监控工具为主,未建设自动化、可视化工具,因此导致监控覆盖不全,颗粒度不够细致,没有办法进行细致的数据分析,也无法向智能化演进。另一方面,虽然多地多中心多活能够帮助总行实现统管分行,但在运维层面因为没有高效的数据处理工具,也未制定统一的数据标准,导致全行运维标准不统一,运维经验不能沉淀和共享。总行与分行之间出现的运维能力天堑,亟需要重新规划、重新建设,实现运维能力桥接。

 

解决方案

 

PART 01 整体建设思路

 

从业务视角出发,以一体化数智运维平台为核心,进行多种企业级运维场景的建设。在不影响原有各专业领域运维工具的前提下,通过一体化数智平台桥接流程管理平台和安全运营中心,实现全行运维的统一运营管理。

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

 

PART 02 建设目标

 

建设一体化数智运维平台,打造企业级运维管理能力。首先形成运维数据治理体系,落地运维配置的闭环管理,进行运维工具的一体化转型,达到能够全面覆盖云上云下各类技术栈;进而建设安全可靠易用的工具平台,提升运维操作自动化覆盖,实现全行生产可视化展现以及工具建设的自主可控;最后,不断升级优化推动运维场景向智能化演进,全面实现全行运维技能的转型升级,赋能全行运维运营管理能力。

 

PART 03 建设路径

 

从基础能力层、场景层、门户层分层建设,首先形成数据运营与智能算法、企业级CMDB、操作自动化三大基础服务能力,然后以业务需求为核心,建设各类运维场景,如应用监控、集中告警、灾备切换、应急处置、应用发布、批量操作等,最后整合场景端能力,兼容展现终端,实现智能可观测的可视化展现,按照业务需求总览系统状态,达到服务全行的能力。

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

 

基础能力层

 

1)数据能力

 

建设运维大数据平台,从物理层、逻辑层、应用层分别入手,纳管来自总行、分行、云上云下、流程操作等各类数据,数据类型涵盖CMDB( 50+项配置数据、600+条属性数据、50万+的配置数据量)以及日增大数据(5TB指标数据、40TB日志数据、 20TB其他数据);同时,建立数据集市,制定数据治理规范和标准,对海量的数据进行高效处理、计算及存储管理,并对数据的质量进行全面监控,实现数据服务标准、敏捷,为全行生产运维场景的智能化演进提供高可用、高价值的数据和算力支撑。

 

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

场景层

 

1)应用监控场景

 

平台监控场景构建总览业务视图,将现有不同领域、不同层次、不同类型的监控进行整合,集中管理总分行各项监控功能。

 

依托大数据平台数据集市和CMDB,统一构建所有监控运维数据指标体系,实现跨技术领域数据关联分析,可以提供符合专业领域运维人员、分行人员、开发人员、管理人员等多种角色日常工作需求的监控视图。同时结合应用拓扑和调用链,基于大数据平台的智能算法分析,提供动态阈值、关联分析、同源分析、趋势预测等多个智能化分析场景。

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

 

2)集中告警与应急处置联动

 

依托运维大数据和智能算法的基础能力支撑,打造云上云上全技术栈一体化的应用系统观测视角,关联展现应用系统各领域、各维度、各技术栈的指标数据、动态阈值基线、云资源配额使用情况、异常告警信息和流程情况,并支持钻取。运用静态规则+智能算法进行指标异常检测关联分析,支持告警联动自动化处置和事件变更流程,形成从监控告警到应急处置及流程的闭环。

 

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

3)灾备切换场景

 

基于保证业务连续性、保护数据安全性以及应对操作自动化平台变更模块时可能产生的应急问题,建设灾备场景,包括灾备切换总览、规划管理、切换设计、切换管理、评估改进五个模块,为中心级全部场景灾备管理提供服务。实现跨系统调度的全行调度能力,实现业务系统在生产机房和灾备机房之间的一键切换和回切,最大程度的满足业务运营平稳高效的需求。

 

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

门户层

 

1)服务共享中心

 

通过对基础能力和外部系统的服务进行治理管控,想运维场景应用统一共享服务,实现标准化的运维能力输出:单节点服务QPS(每秒响应请求数)大于2万,服务路由延时小于1毫秒。

 

  • 服务注册与发布:提供服务注册与发布能力,对服务接口进行集中管理。
  • 服务授权与鉴权:提供已发布服务的授权、鉴权、白名单管控。
  • 服务流控与熔断:提供精确到秒级的流量控制和自动熔断能力。
  • 服务调用审计:审计服务调用记录,追溯服务调用历史,评估服务效果。
  • 服务路由网关:提供全局与区域网关,实现服务访问的寻址与路由能力。

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

 

2)用户权限管理

 

为基础能力和场景应用提供统一的用户、角色和权限管理体系,覆盖监控场景、告警场景、自动化场景等,支持5000用户同时在线,200用户并发操作。

 

  • 权限注册:基础能力模块和场景将自身功能权限点注册到用户权限管理,实现功能权限统一管理。服务授权与鉴权:提供已发布服务的授权、鉴权、白名单管控。
  • 权限下发:由用户权限管理完成基础能力模块及场景的授权,并将授权信息下发能力模块及场景。
  • 单点登陆:用户登陆并完成统一认证后,根据用户角色权限,即可访问基础能力或场景,实现单点登陆。

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

 

3)统一门户

 

统一门户作为统一运维平台的主入口,为用户提供一站式访问各个运维场景和各个子模块功能的快捷通道。同时,汇聚各个场景、模块的概览信息,形成个性化的个人工作台及总览视图。

 

  • 信息汇聚、场景融合:将各个场景和子模块的关键信息进行集中提取和展示过低代码能力将场景根据用户角色进行融合,形成便捷访问的个人工作台
  • 统一登录和授权:用户通过门户实现统一登录和授权,一次登录即可访  问所有具备权限的场景和子模块
  • 界面快捷创建:门户提供前端界面的低代码快速开发能力,用户可以通过拖拽和图形化配置实现简单操作界面的快速创建
  • 统一界面规范:建立一套统一的用户界面规范,使新建应用界面风格基本一致,降低用户学习成本,提升美观度

 

实践成果

 

实现全领域数据接入:接入涵盖指标、日志、告警、配置、流程5大领域数据。应用、系统、网络、服务器、存储、云六大块领域,实现日增数十亿的海量数据存储。

 

智能化数据处理能力提升:依托运维大数据平台,搭建标准化、可视化、智能化的数据处理平台;通过统一数据集市+用户自主开发的方式向数据开发人员提供数据服务。将数据接入、处理、服务提供整体供数效率从T+7提升至T+2。

 

大幅提高故障处理效率:应用监控、集中告警场景配合建设,实现应用故障20秒以内告警,20分钟召集处置。

 

运维数据标准化:完成指标、日志、告警、配置、流程这些运维数据的建模,完成基础对象体系、指标体系、配置管理建模,落地运维数据治理,确保了数据的时效性,完整性,关联性,有效性,为应用监控场景、智能分析场景提供高质量的数据支撑。、

 

试点全链路应用监控:推广全行统一应用开发框架JUMP,部分系统试点链路追踪分析场景,为将来全面推广应用链路分析做准备。

 

总结与展望

 

该客户在智能运维方面的建设处于行业先驱地位,通过不断的试错和试验,正逐步完成高效的信创数字化转型。在擎创侧的配合下,已初步实现平台主体成型,可以纳管云上云下运维对象并为之提供服务。目前,已完成正在各分行进行自动化能力试点推广,希望能够达到支撑总行80%以上、分行50%以上的场景自动化。

 

未来,将进一步推进运维数据标准化和源端数据质量的改造,持续优化、迭代平台整体能力,打造全行内服务共享能力,嵌入运维大模型自我学习机制,助力客户完善信创及云原生环境下的全面自动化纳管,实现智慧化运维体系的早日建成。

 

“实践案例分享-擎创科技”编委介绍

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

连载八 |《中国智能运维实践年度报告(2022-2023)》之实践案例分享-擎创科技

 

精彩预告

 

下期将分享平安银行的实践案例之“关于运维数据治理在银行的实践”,详情敬请关注“双态IT论坛BOA”公众号!