Hi 朋友,本期将从“样本情况”“智能运维和运维数据治理实践”两方面来展现智能运维和运维数据治理现状调研分析结果。

 

样本情况

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

本次调研共收集40余家单位的智能运维及运维数据治理现状,调研单位主要分布北京、上海、广东、安徽、四川、湖北、云南、重庆、山东、浙江等地区。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

本次调研单位主要来自于银行、证券、保险、能源、运营商、交通运输等行业,且在去年参与调研的单位当中,有56%的单位也参与了本次调研。

 

智能运维和运维数据治理实践 

 

智能运维和运维数据治理开展情况

 

智能运维开展情况

 

通过问卷调研,我们发现:

 

当前,智能运维正面临着影响未来发展的信任问题。这种信任压力既来自内部,又来自外部。其中内部信任压力主要来自运维数据的质量,外部信任压力主要因为投入产出比不高。

 

智能运维在2022-2023年的建设基本围绕场景、数据、平台开展工作。主要延续2021-2022年的建设内容,包括:运维体系建设、重构CMDB、自动化运维优化与增强、监控体系和平台建设、运维数据治理平台建设、指标体系建设、智能运维场景应用。

 

智能运维的建设难点根据每一个用户的能力成熟度各有不同,但基本聚焦在:多系统故障根因分析;智能运维场景的投入和产出不成比例;运维数据质量不高;组织对智能运维尚未达成共识;智能运维厂商能力支撑还存在不足等。

 

从统计的数据看,数据管理能力是首要的提升方向,这反映了智能运维当前的工作重点,也是智能运维持续发展的关键。没有高质量的运维数据,就不会有高智、高效的智能运维。

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

运维数据治理开展情况

根据调研统计,43家用户单位中,已开展运维数据治理的单位有33家,占比79%,未开展的单位为9家,占比21%。

 

我们将运维数据分为:配置管理数据、流程工单数据、运维知识数据、监控指标数据、监控告警数据、运维操作数据、运行日志数据、网络报文数据和其他数据。

 

每类运维数据的治理活动包括:顶层规划、数据架构管理、数据标准管理、数据资产管理、数据全生命周期管理、数据安全管理、数据质量管理、数据共享、数据服务和数据洞察。

 

经调研统计,在已开展运维数据治理的单位中,按照运维数据治理活动统计(某种活动涉及的某类运维数据计数为1),运维数据治理活动开展情况统计如下:

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

开展最为广泛的运维数据治理活动是顶层规划、数据全生命周期管理、数据标准管理和数据服务,开展最少的是数据洞察。

 

根据对各单位运维数据治理工作调研反馈进行归纳,已开展的工作内容及取得的成效主要包括:

 

  • 大部分单位都从配置管理、监控指标、告警、日志等方面开展治理工作,部分单位还对于运维操作、运维流程、报文数据、运维知识等方面开展了治理工作。通过治理活动提升了运维数据质量以及数据准确率,并且通过将专家经验沉淀成知识、精简告警信息等手段提升了运维工作效率。

 

  • 部分单位从顶层设计出发,构建了运维数据治理的组织架构分工和管理规范,对于有效推进运维数据治理工作提供了制度保障。

 

  • 部分单位构建了较为完整的运维数据治理体系,从运维数据全生命周期出发进行质量管理,构建运维数据资产体系,完善运维数据服务,提升了运维数据消费便利性。

 

  • ​​​​​​​在运维数据治理工作中,较多单位都引入了相关技术平台来支持治理工作的落地,主要技术平台包括运维大数据平台、基于数仓的数据平台、运维数据总线、统一日志平台等。

​​​​​​​

智能运维和运维数据治理组织治理情况

通过问卷调研,我们发现:

 

  • 大部分单位对于数据治理都是内部组建团队的模式,但仍未有标准的团队管理模式进行智能运维的开发。

​​​​​​​

  • ​​​​​​​银行和证券行业对于智能运维,以及运维数据治理还是非常关注的,不少单位也成立专门的团队负责数据治理的工作。传统行业如能源,交通运输,受制于单位的性质,对于运维数据治理还是起步阶段。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

 

  • ​​​​​​​调查表中,参与运维工作总人数为4300余人,参与智能运维研发的人数为400余人,参与运维数据治理248人。总体比例约5-10%左右。可以认为目前智能运维工作对于运维团队的实际工作占比较轻,仍处于调研、尝试、落地等的探索阶段。

 

  • ​​​​​​​目前大部分单位对于运维数据治理的目标是用10%左右的人力成本,结合多维度的数据,来帮助运维团队进行快速交付,分析决策,运维场景赋能。

 

  • ​​​​​​​依然是银行和证券等金融类行业,对于这种创新型的运维数据治理有较大的需求。若有标准的智能运维和数据治理方案落地,就会快速的推广到相关的单位中。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

智能运维和运维数据治理平台建设情况

 

通过问卷调研,我们发现:

 

运维数据治理的平台技术支撑方面,使用率最高的平台分别为配置管理平台、运维大数据分析平台和运维指标数据管理平台,这也正好对应了“生产”、“加工”和“消费”的三个大场景,并从占比量中可看出平台建设重心的演进路线。此外,运维知识库的占比达到49%,仅次于上述三个平台,可看出在运维数据中自然语义类数据也是重要的管理内容之一,相信尤其在近些年大语言模型爆炸性发展的情况下,运维知识库的建设投入和技术升级将进一步体现。其次运维数据中台使用率也达到46%,说明为防范和解决存储分散、工具异构、消费场景多元等情况带来的问题,各单位正通过建设中台的方式实现渠道整合、标准统一的目标。而运维数据资产管理平台使用比例为27%,说明多数单位对于如何进行数据资产化尚未形成较为成熟的落地方案。最后,运维元数据管理平台使用量为24%,对于此结果既有该功能已纳入在配置管理平台等元数据存储载体的可能性,也有该项工作处于整个数据治理初期环节,对数据价值的发挥影响较小因而投入不大的因素。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

智能运维平台的建设方面,各单位主要以商购和自研为主。在技术不断更新和迭代下,图计算、图数据库、流数据处理等技术越来越广泛的应用起来,并逐步从探索性产品成长为最佳实践。进一步的,例如大语言模型等新兴技术也在智能运维场景中开始崭露头角。

 

运维数据治理相关活动开展情况

 

运维数据规划

 

根据调研统计,43家用户单位中,基于信息科技或信息化战略开展运维数据治理相关规划的单位有32家,占比为74%,规划层级和规划周期统计如下:

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

从调研结果来看,在规划层级中部门级的规划占比最高,而企业级的规划占比最低,这说明运维数据治理工作目前在部门层面上组织和推动的比例最高,而上升到企业层面的整体规划还存有较大困难和阻力。

 

在规划周期方面,调研显示三年规划占比最高,而五年规划占比最低,这说明运维数据治理作为一个中期规划被大多数单位所接受,而长期规划则比较难以制定。

 

运维数据架构设计

 

根据调查结果所示,有近半单位已开展运维数据架构设计,可看出在前期智能运维场景的探索下,运维数据治理也已逐步从方法论进入到实践阶段。

 

在目前的开展实践的用户中,多数用户在建设、运行和管理阶段中将运维数据架构与企业级数据架构明确区分,说明虽同为数据治理工作,但因价值目标、技术方案、管理要求等方面存在较大差异,两者适宜独立建设和运行。此外运维数据可赋能业务场景成为了共识,多数用户在运维数据价值挖掘和消费场景中,将运维数据与业务数据的进行了关联或预留相关功能。同时,为配合运维数据治理工作的推进,已有部分单位建立了明确的规范制度和标准,并组建了专业化团队开展此项工作。

 

运维数据安全管理

 

从调研数据来看,在运维数据安全管理领域开展实践TOP3的是操作可追溯、安全规范标准、宣贯培训、分级安全管理策略,分别占比84%、68%、66%。仍处在关注应用过程中相关管控活动的阶段,对于性能绩效等场景领域开展实践有待提升。

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

从实践场景情况来看,银行、证券落实的各个实践占比较多,业务需求迫切程度高;其他行业由于行业特征,对运维数据安全实践较少。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

运维数据资产管理

 

从调研数据来看,资产化运维数据TOP3是监控指标数据、配置管理数据、监控告警数据,分别占比74%、74%、71%。参与调研的各行业管理数据和运行数据资产化并重。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

从资产化运维数据场景来看,银行、证券开展的工作相对全面,但各有侧重;保险、能源等行业并未或并未完整的将运维数据看作为资产。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

运维数据模型管理

 

通过问卷调研,我们发现:

 

60%的受访企业开展了运维数据模型的管理,这些开展模型管理的企业把主要精力放在逻辑模型管理上,接近一半企业开展了主题域模型、概念模型的管理。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

60%的受访企业开展了模型管理,普遍借助管理工具进行模型管理,仅有11%的企业仅通过人工进行模型管理。虽然大部分的企业使用配置管理工具进行配置数据模型管理,仍有27%的受访企业使用专业的建模工具进行模型管理。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

运维数据服务

 

通过问卷调研,我们发现:

 

对于数据服务方式方面,受访企业普遍采用接口、文件、订阅等相结合的方式,数据接口(占比95%)是最常见的数据服务方式

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

运维数据治理全生命周期管理

 

通过问卷调研,我们发现:

 

40家企业反馈结果中,虽然有55%企业反馈有相应过程,但过程描述非常明确、清晰的不到10%,说明各企业在运维数据治理过程中,并未建立独立的、清晰的过程管理流程和责任闭环,过程管理的各个环节,更多是分散到不同运维平台的某项功能,或者穿插在其他管理工作中,未能体系化考虑,也说明运维数据治理工作在各企业中的推广有待进一步提高。

 

运维数据的消费反向推动运维数据治理建设

 

通过问卷调研,我们发现:

 

39家企业反馈结果中,77%企业反馈均有反向推动机制,说明数据消费反向促进数据生产优化已成为大多数企业的常态化机制。

 

数据反向推动,主要从两类场景着手:

 

第一是事件告警类,包括异常检测、告警推送、故障定位、监控分析等。系统安全稳定运行,是运维工作的首要职责,如何更快发现问题、更准定位问题、更快通知到对应人员解决,高度依赖CMDB、监控配置、变更管理等上游系统的数据质量,该类场景是反向推动数据治理的最大原动力。

 

第二是效能提升类,该类场景并非解决实时异常,而是着力提升运维工作效能,如安全分析、容量预测或者特定工作任务等,同样依赖于上游各运维数据的准确度和精准度,在日常运维工作中成为各企业推送数据治理的次要原动力。

 

运维数据治理效能评价指标

 

通过问卷调研,我们发现:

 

41家企业反馈结果中,排名前列的绩效指标分别为“准确性”(占比63%)、“完整性”(占比56%)、“及时性”“覆盖率”(两者占比同为44%)。

 

若数据不准确,在此基础之上建立的各项分析模型、智能场景等被信任程度将大幅降低,对运维工作带来的干扰,远甚数据不完整、更新不及时、覆盖不完全等造成的影响,因此,“准确性”成为数据衡量的首要指标是已成为大多数企业的共识。

 

其次,“完整性”、“及时性”、“覆盖率”等指标,则影响分析模型、应用场景的推广程度,数据空白率越低、覆盖程度越广、更新更为及时,则可构建的模型和场景愈加丰富,可提供的运维服务也愈加充足,因此也成为各企业排名前列的绩效指标。其他指标,包括自动化率、一致性、可用性、消费率、安全性、智能化率,则更多是保障数据运转更加高效,或者受限于当前技术实现能力,并未成为当下各企业普遍采用的衡量标准。

 

针对指标如何统计,因各企业采用的技术栈、工作机制等均不相同,暂时不存在统一的统计标准,基本均是根据实际场景中数据在上下游交互以及横向关联分析中,进行纵向或者横向比对,且大多数并未形成平台化的技术实现方式,人工依赖程度有待进一步降低。

 

运维数据治理激励机制

 

通过问卷调研,我们发现:

 

41家企业反馈结果中,有54%企业明确表示参与运维数据治理工作并无配套的激励机制,在反馈有激励机制的46%企业中,排名前两位的激励措施分别为人员培训和讲座分享等“软激励”,鼓励性为主,可以判断运维数据治理工作在当下实际工作中,并未给参与人员带来更多硬性激励,从一定程度上说明,各企业并未形成正式的运维数据治理工作机制,组织重视程度有待提高。

 

智能运维场景及相关的样本数据

 

日常运维和管理中关注的智能运维场景

 

通过问卷调研,我们发现:

 

在日常运维和管理中,客户关心的智能运维场景有以下几个类型:故障分析、告警分析、业务分析、智能分析等,从分布图反馈问题最多的是业务分析方面,占比79%;其次是故障分析方面,占比75%;占比第三是告警分析,占比54%,智能分析的比例只占11%。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

业务分析的占比最多,表明了业务场景是客户使用数据和产生数据的一个必要环节,也是智能运维的一个核心对象。伴随着业务分析的场景使用最多的是故障分析,其次是告警分析。因为故障分析和告警分析都是保障业务稳定运行必要环节。综合所有调查结果和调研数据分析,当前的智能化场景有以下方面的突破方向:

 

  • 技术相关工具改造,加速技术转型

​​​​​​​--为了实现智能化运维的管理目标,必须要建立数据复制管理平台可实现相关数据同步管理工具改造;同时建立自主研发的存储设备智能管理平台实现技术设备性能管理工具改造。

 

  • ​​​​​​​集中化管控多数据中心间的数据,提升数据利用价值

​​​​​​​--对底层多数据源、多数据格式的异构数据实现统一接入收集,并内置多种数据解析引擎将不同格式的数据实现解析和标准化,统一存储规范保存在数据平台,提供全程数据流的可视化操作,同时在数据处理上内置多种数据处理算子工具,实现对不同数据格式的自定义处理。

 

  • ​​​​​​​核心业务系统在发生重大故障之前实现异常隐患预警

​​​​​​​--为了实现智能化运维的管理目标,基于对核心业务系统的重要IT指标历史数据进行接入分析,结合AI算法对时序数据进行算法能力分析后将核心指标按照数据规律和特征实现智能阈值区间,通过波动和趋势对比实时产生的指标数据实现异常点的发现和预警,在故障发生之前通过异常隐患预警规避重大故障的发生。

 

  • ​​​​​​​核心业务系统故障发生后,快速定位问题

​​​​​​​​​​​​​​--通过纳管各层面的指标数据实现统一集中化数据管理模式,并结合AI算法的能力引入不同算法模型,实现对基础设施层、数据库层、中间件层、业务层等多维度的指标关联分析,并实现根因定位分析和快速排障,减轻故障发生的影响面。

 

  • ​​​​​​​核心业务系统对罕见及特殊异常问题实现事前感知

​​​​​​​--将核心业务系统的各种日志实现全面接入,并通过日志平台的分析能力结合AI算法可实现日志模式的智能识别,通过对海量的日志进行模式的分组和分析就可发现较为特殊的日志模式,运维人员可通过对该类日志进行查看就能用最少的时间来排查罕见异常事件的来源。

 

  • ​​​​​​​​​​​​​​关联分析及处理复杂环境下多维度告警

​​​​​​​--基于底层的数据管理能力,实现对各维度监控工具的对接和告警信息收集,通过告警中心对海量告警数据实现规则和算法两种方式的压缩和告警抑制,配置相关告警屏蔽规则,减少无用告警,提高告警消息的可读性。

 

日常运维和管理中关注的智能运维场景使用的样本数据

根据调研结果来看,样本数据中最多的为监控数据,占比94%;占比第二的样本数据类型为日志数据,为74%;占比第三的样本数据类型为配置数据,为71%;剩余的流程类型的样本数据和知识库类型的样本数据分别占比34%和20%。

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

综合以上数据分布情况,可以发现监控是整个运维乃至整个产品生命周期中十分重要的一环。监控涉及到事前及时预警发现故障,事后提供详实的数据用于追查定位问题,如果监控功能缺乏,什么基础运维、业务运维等工作都将无从谈起。从某些层面来说,监控是运维工作的最重要组成部分之一,尤其是在当前智能运维行业发展迅猛的阶段,用监控数据快速发现、定位问题,显得更加必要。在日常运维工作中,满足了监控数据的要求,则有了充足的数据,为运维工程师的工作提供了更强有利的分析数据和判断依据,进而保障了业务的稳定连续性。

 

“年度调研-智能运维和运维数据治理现状”

编委介绍

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

连载十三 |《中国智能运维实践年度报告(2022-2023)》之年度调研-智能运维和运维数据治理现状

 

精彩预告

 

下期将分享“年度调研”之智能运维和运维数据治理未来规划,详情敬请关注“双态IT论坛BOA”公众号!