Hi朋友,上期分享了国泰君安证券的实践案例,下面让我们来看一看本期内容之“新华三——数智革新引领IT转型升级”

 

 

形势

 
世界正在经历百年未有之大变局,国际格局深刻调整。过去的这两年,新冠肺炎疫情全球蔓延,百年变局加速演进。乌卡时代,在我们面临的所有的不确定当中,有一件事是确定无疑的,那就是数字化的趋势没有改变。数字经济正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量;数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。

连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图1乌卡时代
 
数字经济已然成为国家战略,《中华人民共和国国民经济和社会发展第十四五规划和2035年远景目标纲要》提出“加快数字化发展,建设数字中国”,激活数据要素潜能,充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,以数字化转型整体驱动生产方式,不断做强、做优、做大我国数字经济。
 
在面对产业结构调整、资源环境挑战、数字技术与创新带来的行业颠覆与机遇,我国各行业企业逆水行舟,不进则退。在此背景下,对于各行各业来说,数字化转型是企业提升经营效率和竞争力的必然选择,已不再是“选择题”,而是关乎生存和长远发展的“必修课”。
 

 

使命

 
在数字化转型大形势下,企业IT技术部门迎来了一个重大挑战,不再仅仅作为支撑部门,而是第一次作为生产建设者的身份指导企业未来发展方向。“数据”是IT部门最强的抓手,“技术”是IT部门最大的优势,每个企业的IT领导者,不得不思考的一个问题是企业数字化转型的业务战略是什么?有没有针对企业的业务战略设计与之相对齐的IT战略或数据战略?IT部门如何利用好这些抓手和优势,制定IT战略为业务赋能,提升企业整体数字化能力?
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图2企业数字化战略
 
幸运的是,挑战与机遇并存,IT领导者可以从思想、行动进行调整,从而改变其IT的运营和管理的模式,帮助企业灵活应对数字化变革带来的各种业务不确定性和挑战。这是时代赋予IT领导者的使命!这一使命决定了IT部门必须要转型,从信息化建设转型为数字化运营,帮助企业降本增效,实现高质量发展。
 
另一方面,重大的变革需要一些早期的成功来证明其价值和方法的可行性,数字化转型也是如此。首先是IT技术的升级,其次是数字技术的使用和破局,最后是基于这些技术和平台的业务创新。IT运维工具、平台相对独立可控,数据敏感度较低,变革风险较低。从这些角度来看,IT部门也是数字化转型阶段当仁不让、先行先试的引领者。
 

 

挑战

 
IT部门职能业务包括整体统筹规划设计、系统构建部署、投产管控、系统监控感知、服务事件运行管理,以及整体运营能力持续提升的运营管理。运维管理提供了基础设施环境支持,确保业务连续性、可用性、安全性和运营服务支持。
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图3 IT价值链
 
    
如今IT的环境复杂性越来越高,业务停滞一秒都可能带来巨大损失,保证业务可用性和连续性需要有效地减少非计划的业务中断、防范运维操作风险,对于异常的出现能够利用工具量化分析并快速定位、修复,确保业务的连续性。业务部门希望IT部门的运营速度和响应能力具备更高的水准。原来被动救火式、问题驱动式、操作运维、经验运维等特点己不能有效支撑公司业务的发展与转型。
 
爱因斯坦说:某个层次的问题,很难靠这个层次的思考来解决。答案永远比问题高一个维度。当你提升一个维度以后,看问题的角度和视野会完全两样,有更宏观的视野与更清醒的洞察,很多以前无法理解的事情会变得豁然开朗、无法解决的问题可能会迎刃而解。全面的数据化提供了“上帝”视野,可以从全局、深度、高维审视破解这些挑战。
 
由于历史及组织分工的原因,传统IT系统多采取竖井式的方式、烟囱式的系统架构,各自为政系统建设,导致企业产生了大量的“数据孤岛”。由于绩效考核机制、部门利益保护等问题,部门之间形成一道无形的“部门墙”。“小数据”普遍存在数据不一致、不准确、不完整等数据质量问题,系统之间数据无法打通、难以融合,企业信息共享困难。打通数据壁垒就是打通管理壁垒,数字化转型的基础就是打破数据壁垒和统一数据口径,消灭组织里面的信息不对称。
 

 

破局

 
数字化转型的本质就是尽可能地挖掘和释放“数据”的价值。“战略性”使用数据,改变数据使用的现状,将数据真正作为企业的“生产要素”去管理和使用。
 
数据是对事实的记录,要发挥数据的价值,就需要将其转化为信息或者知识。从古代的“结绳记事”,到现在的“智能仪表盘”,在数据到信息再到知识的转化过程中,数据分析和可视化是关键。数据分析和可视化不仅让数据看起来很不错,更重要的是,使数据更易于理解和解释。
 
Gartner给出了数据分析的5个层次:1、描述性分析—发生了什么;2、诊断性分析—为什么会发生;3、预测性分析—可能会发生什么;4、处方性分析—该做些什么。5、自动化分析—智能自动决策。
 
这是一个从数据中得到“后见之明”,到从数据中获取“洞察力”,再到给出“远见”的过程,不同层次的分析所需的技术、算法、方法、工具会有所侧重或不同。数据分析、挖掘、可视化的工具有助于提升数据处理、数据分析、数据展现的效率和效果,充分挖掘数据中蕴含的价值。
 
     
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三
 
图4 Gartner分析类型
 
数智化,即数字化+智能化。数智化的核心,是以海量大数据为基础,结合人工智能相关技术,结合场景化去解决问题。也就是说,数智化可以简单理解为是在数字化的基础上的更高诉求。智能化本质是复杂问题的需要借助智能化的能力来解决高维问题。
 
Gartner在2017年提出了AIOps智能运维概念,以描述使用人工智能应用于IT运维领域的方向。利用大数据、机器学习等技术手段处理运维相关的数据,通过实时、动态、增强等高级分析,使之具备诊断、预测能力,直接或间接提升系统的稳定性、可用性、体验感,实现更高质量、更低成本、更高效的支撑,改善和增强IT运营能力,以提高企业的竞争力。
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图5 Gartner 2021年中国新技术发展周期图
 
Gartner报告显示,随着越来越多的业务运营数字化及不断增长的数据量,用户对AIOps平台功能的需求也将不断增长,数字业务转型正在推动AIOps市场发展。数据量的快速增长和变化的速度不能等待人力来获得洞察力,不包括AIOps的IT运营没有未来,渴望建立数字业务的行业将率先采用AIOps系统。Gartner预计,到2024年,将有30%的企业领导者将依靠IT运营(AIOps)平台中的Al来获得自动见解来推动与业务相关的决策。
 
2021年12月14日,国家标准化管理委员会、应急管理部等10部委联合印发《“十四五”推动高质量发展的国家标准体系建设规划》,其中智能运维、大数据治理、数据资产规划、数据服务能力等相关标准均被明确写入。
 
《信息技术服务智能运维第1部分:通用要求》作为智能运维的标准,定义了智能运维能力框架,规定了智能运维能力要素和能力实现的过程。以信息技术服务领域智能运维最佳实践为基础,明确了信息技术服务领域运行维护服务智能化建设和运营要求;增强了信息技术服务领域企事业单位在智能运维技术方面的规范性及其运维服务能力。
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图6智能运维国标框架图
 
智能运维能力框架包括组织治理、能力要素和能力实现三部分。
 
智能运维建设需要在组织治理下,进行战略宣贯、组织拉通、总体规划、资源保障及建设管理;运维需求及各种场景应用层出不穷,能力平台是将各类运维场景共同用到的数据和技术加以整合、沉淀,实现能力的共享。
 
运维组织将能力平台提供的数据管理能力、自动控制能力和分析决策能力通过场景分析、能力构建、服务交付和迭代调优等活动,在具体的运维场景中进行融合创新,最终实现具备智能特征的运维能力,从而达到安全风险管控、高效运维交付、快速业务响应、标准运营支撑的运维目标要求。
 
有了标准的指导,有助于构建智能运维产业生态,支撑信息技术服务业持续发展。
 

 

实践

 
(一)数据中心数据化运营体系统建设
 
某头部金融企业的金融科技战略是以数据为关键生产要素,以科技为核心生产工具,驱动金融创新,按照“综合性、多功能、集约化、创新型、智慧型”方向,实现全方位数字化转型,致力打造“以客户为中心”的最具“智慧”的银行。面对新形势、新挑战,如何构建安全、可靠、自主、创新的金融科技底座,有力支撑企业数字化转型,数据中心从数字化运营、精细化管理、技术运营标准规范这三个主要方面统筹谋划,调整目标,由确保信息系统安全稳定运行的运维目标转变为“安全稳定、高效敏捷、创造价值”的运营目标。通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学的分析,为数据使用者提供专业、准确的行业数据解决方案,持续提升技术运营数字化能力,实现从“技术运维”向“数据运营”转型,达到优化运营效果和效率、降低运营成本、提高效益的目的。
 
数据中心从运维到运营的转型中由于缺乏有效的数据化运营能力,面临诸多挑战。缺乏数据思维,缺乏数据驱动运营的思想;数据越来越多,但可以有效用来决策支持的数据却很少;分析无从下手,不知道分析什么、如何分析;数据分散在不同的IT系统中,没有集中管理,数据质量参差不齐,治理困难,整合难度很大;零散指标手工统计耗时费力,无法持续跟踪运营工作情况、优化和改进服务质量,时效性和可信度无法保证。同时在“数据运营”转型中,技术运营能力是数据中心的重要标尺,而如何度量、评估、提升运营服务能力,需要一套标准来指导,更需要一套体系来检验。
 
数据化运营指标体系正是这样的一个抓手,根据数据中心智能运维和数据化运营目标的指导和要求,构建可量化、可导向、可对比的技术运营指标数字化评价体系,对运营数据(管理数据+技术数据)进行分析,揭示与分解各项运营管理活动要素,形成可监测运营效果与衡量发展方向的运营指标。采用自顶向下的设计方法,分层分类进行分解,数据中心运营水平一级关键目标指标,分解“安全运维,高效运营、资源规模、创新发展”关键成功因素二级指标,每个二级指标再次分解为三级关键绩效指标,逐层向下,规划了六百多个指标,目前建设落地了两百多个指标,最终形成灵活可伸缩扩展的指标体系(如图7)。体系中的指标设计为量化指标,基于客观事实数据计算,能够反映真实的运营情况,可实现自身对比以及行业对比,还可以通过高级指标设置以及权重的分配体现关注领域和发展方向,实现导向。每个上级指标可以逐级下钻到下级指标直至事实明细数据,定位异常偏差的指标和事件记录。每一层级的任意指标可以根据具体维度、时间周期、时间跨度范围进行多视角多组合维度的观察分析对比。
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图7数据中心数据化运营指标体系规划
 
支撑数据化运营体系的数据基础在于运维大数据资产的平台的建设。并不是所有的数据都是数据资产,那些不能给企业带来价值和利益的数据,就只是数据资源。
 
数据资源化是第一步,数据汇聚,打通数据孤岛。拉通流程管理、事件整合、监控平台等各运维管理工具平台,自动化采集技术和管理数据,完成数据质量校验和评估,推动数据治理,提升数据质量。
 
数据资产化是第二步,盘点摸清数据家底,从业务域出发进行数据的梳理,从信息系统出发进行数据盘点。建立数据标准,包括数据资产编码,数据分类分级,数据资产目录。构建运维业务的企业级一致性数据模型,建设基于大数据的运维数据仓库和统一指标模型,实现数据联接;通过数据模型规范整合,形成数据中心优质数据资产。
 
数据价值化是第三步,打造数据资产的运营能力,真正实现让数据为业务赋能。数据服务层提供指标数据得分实时计算、多维度多视角指标分析、运维系统画像、可视化报表、分析挖掘等数据服务,支撑数据化运营指标体系、智能管控、安全态势感知等各种场景数据需求,实现运维数据的统一与共享。场景数据应用的反馈,推动改善了数据质量,进一步提升了数据服务能力。

连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图8数据中心数据化运营体系构建图
 
数据中心数据化运营体系的建立,打通了数据孤岛,实现了数据拉通融合,夯实了数据驱动的数字化运营底座。运营指标评价系统的建设,成功地构建了领先的指标模型库,全面涵盖运营数据中心主体业务的工作数据、性能评价、绩效评价、整体评价、整体运营目标等,建立了可量化、可对比、可导向、场景化的运营指标体系,实现了实时观测运营情况,多维度多视角持续评价技术运营能力,跟踪监督运营服务质量,为运营活动提供了精细化科学管理依据和手段,持续改进、提高数据中心运营能力。
 
数据化运营体系构建是智能运维国标框架的实践案例,积极践行框架中的组织治理、数据管理能力域、分析决策能力域以及智能运维场景标准。数据化运营指标评价体系在数据中心落地实践的摸索,也为数据中心能力评估提供标准依据。智能运维标准的建设和推广应用、数据化运营指标评价体系标准规范化制定,将有助于指引数据中心建设发展。
 
(二)数据智能赋能运维事件治理
 
IT中心最显而易见的一大挑战就是运维事件的治理问题,一面是“海量”的告警信息需要处理,一面是故障被动应对,响应处置效率低下,业务部门诟病IT部门支撑不力,影响业务目标。要解决运维的复杂问题、提升运维的价值、引领运维的演进的关键方法,是拉通、整合运维数据,增强数据质量,将可观察性数据和AI更好地结合在一起,并应用多层AI。
 
数据选择算法消除数据噪声、冗余的数据项。模式发现算法查找与那些重要数据项相关的模式。因果推理算法能从这些相关模式中确定哪些是相关性的根源告警。协作算法能够对现在相关且因果分析的重要事件做出反应。最后,自动化算法将执行团队协作计划中产生的计划。

连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三
图9事件智能化治理框架

连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图10事件智能化处理原理
 
通过AIOps处理日志、指标,跟踪和告警这些可观察性数据,消除噪声、确定优先级、切实可行地建立相关性,并提供深入的上下文洞察力,聚焦有效事件(如下图,某客户告警整体压缩率达到了99.15%)的高效处理,确定故障根本原因并进行补救,增强运营的可见性并改善风险管理,降低故障的平均恢复时长,这些都与企业目标保持高度一致。
 
连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三

图11事件智能化过程告警处理统计
 

 

笃定

 
乌卡时代,挑战和机遇并存!总有一些睿智、勇敢的企业和个人,能够把握住时代的脉搏,敢于挑战、勇于挑战,从挑战中发现机会、把握机会、甚至创造机会。他们不仅没有在未知、不确定性的乌卡时代迷失,而是找到了支撑他们不断前进的笃定力量,帮助他们寻找方向,探索未知。这个“笃定力量”,他们称之为“VUCA 2.0”!乌卡2.0代表Vision(愿景)、Understanding(理解)、Courage(勇气)、Adaptability(适应)。如果说,乌卡是数字化转型的挑战,那乌卡2.0就是数智化引领的方向!道阻且长,行则将至,行而不辍,未来可期!
 

· “实践案例分享-新华三”编委介绍 ·

连载十 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part5-新华三


· 精彩预告 ·


下期将分享云智慧的实践案例之“智能业务运维之银行运维数据分析平台建设实践”,详情敬请关注“双态IT联盟BOA”公众号!