连载三 |《中国智能运维实践年度报告（2021-2022）》之标准解读Part2-运维数据、算法、技术治理翰纬科技

Hi朋友，本期将从“为何写标准”和“标准讲什么”两个角度分别对运维数据治理标准、运维算法治理标准、运维技术治理标准进行解读。

WG2运维数据治理标准解读

1）为何写标准

目前运维数据质量已成为制约“智能运维”发展的主要瓶颈。随着云原生、微服务、分布式架构等新技术的兴起和推广应用，应用服务之间的关联关系更趋复杂，服务之间的交互也大幅增加，这都使得相关运维数据出现快速的增长，每天有上百十亿条的监控指标、日志等产生，但目前运维数据存在离散性高、标准不一、获取困难等问题，使得现有运维数据的完整性和可用性不能满足智能运维场景下业务支撑、系统问题排查、趋势分析与问题干预等需求。

运维数据治理是解决上述问题的必由之路，但是治理工作需要依托于相关标准的指导。

目前业界有多个关于数据的方法论和标准，但大多是偏向于业务数据，比如：GB/T 36073主要关注面向业务领域的数据标准建设指引。但这个标准难以适用于运维数据治理：由于业务数据和运维数据在内容、分类、类型、频度等方面的差异直接导致了在运维领域无法完全参照业务数标方法论指导运维数标的建立，因此为能有效支撑智能运维场景的落地，实现运维数据价值赋能，需要在运维领域沉淀出可指引、可实施、可落地的运维数据标准。

再比如GB/T 34960.5关注顶层治理体系，但缺少针对运维数据治理方面的落地实施层面的指导，指导性较弱：运维数据治理有两层含义，一层是这些标准里说的构造从上到下的一个治理体系；另一层是提高数据质量。平时工作中多数指的是第二层意思，即某个专题的运维数据治理。现有标准重点关注构造从上到下的一个治理体系，而对于提高数据质量的阐述比较少，即便包括了些许，也感觉隔靴搔痒，没细讲，指导性比较弱。

由于以上标准未能有效针对运维数据的特点（如非结构化、海量、血缘弱等），对于运维数据的管好、用好，缺乏实质性和下沉性的指导性意见，而智能运维对运维数据质量的依赖度比传统运维更强，需要有细化、明确、有针对性的运维数据管理标准指导维运维数据。

综上所述，现有标准和目前智能运维通用要求标准没有关联和承接性，难以配合智能运维系列中各标准一起为智能运维建设各方面提供更好的指导。亟需针对运维数据治理制定更加标准清晰的运维数据治理体系，以更好地指导用户建设和完善自身的运维数据治理框架，提升面向智能运维的数据治理能力。

2）标准讲什么

本标准继承和借鉴了GB/T 34960.5的理念，基于运维数据的特点和参编单位实践中的共性，搭建了运维数据治理框架，帮助弥补运维数据治理领域存在的不足，并指导应用方的运维数据治理实践，提供高质量、全覆盖的运维数据支撑智能运维场景更好的落地实施。

运维数据治理框架划分为顶层设计、一般要求和运维数据管控过程三大部分，通过这三部分的建设，对组织运维数据治理的现状进行评估，指导组织建立运维数据治理体系。

顶层设计

顶层设计从全局的角度对运维数据治理在战略、组织、架构各方面进行了统筹规划设计，包括：

将运维数据战略与企业发展战略进行战略对齐，从而提升企业数据质量，实现数据价值；

建立有效的组织架构并明确职责分工，保障运维数据治理工作的有序进行；

对运维数据治理进设计相应的运维数据架构，关注技术架构、应用架构和架构管理体系。

一般要求

建立一套不同颗粒度，不同使用范围对象和不同管理过程的制度要求，包含运维数据分类、运维数据管理和运维数据服务三个方面：

运维数据分类：为了满足智能运维场景及算法的要求，对运维数据进行分类，并针对运维数据的一致性、完整性、准确性、及时性制定规范性约束，包含元数据分类、管理数据分类、运行数据分类等；

运维数据管理：对运维数据的生命周期、安全管理及质量管理等方面提出规范性要求，生命周期管理规定了运维数据从产生到消亡的各个阶段，并对每个阶段应遵循的原则进行了阐述；安全管理强调了企业应建立运维数据安全管理规范，保证运维数据在运维数据生命周期各环节中的安全可控；质量管理提出了企业应建立长效的运维数据质量保障方案，形成管理闭环，不断优化和提升运维数据质量；

运维数据服务：在用户构建了完备的运维数据标准和运维数据管理体系后，以服务于上层运维服务场景为目标，指导运维数据价值变现，提升运维数据应用价值。从数据的规范约束、数据的共享机制以及数据服务应用等三个方面提出管理要求，在保证运维数据本身完整性与一致性的基础，满足更多的运维数据应用场景和个性化需求，提高运维数据供给、消费、应用、运营以及价值兑现的效率。

运维数据管控过程

运维数据管控过程指导运维数据治理的落地路线设计，是基于实施路线推进具体的运维数据治理建设。通过统筹规划、构建运行、监控评价、改进优化四个过程对组织、流程、平台、场景四位一体的建设工作进行持续优化，提升运维数据治理水平。

WG3运维算法治理标准解读

1）为何写标准

虽然这几年人工智能在人脸识别、智能驾驶等领域得到了大量应用，但是AI仍然面临着计算效能、安全、可解释性等诸多挑战。针对人工智能的算法治理，也逐渐进入大众视线。顶层设计方面，《法治社会建设实施纲要（2020－2025年）》提出健全算法推荐、深度伪造等新技术应用的规范管理办法。另外，《“十四五”数字经济发展规划》指出，要加快构建算力、算法、数据、应用资源协同的全国一体化大数据中心体系。

相比于其他行业人工智能落地场景，智能运维所亟需解决以下问题：

缺乏有效的算法监管机制。智能运维算法在治理层面存在三个问题：一是算法透明度不够，像黑箱一样。二是算法歧视，表现为算法不公平、不正义。三是算法违法，例如，通过算法实施一些违法的数据处理行为。这三个问题有两大根源。一是价值层面，算法运用者的商业伦理出了问题；二是算法监管制度供给不够、不优、不力。

算法分类分级体系欠缺。智能运维发展的难点在于场景的“和而不同”。现有的智能运维算法尽管可以覆盖大多数运维场景，但随着智能运维场景的多样化与精细化，想靠一套算法一网打尽往往会导致漏网之鱼或错杀无辜。比如单指标异常检测在检测业务、机器、网络、数据库、存储系统、批处理的异常时，因场景不同，检测侧重点会有所不同，因此算法需要针对具体场景进行调整或适配。然而，目前我们缺少相关的指导性文件，对于算法的边界无法准确区分，导致走了不少弯路。

缺乏有效的评价体系。在人工智能领域，人们将准确率、召回率、F1_score等作为算法的评价指标，然而在智能运维领域，很多时候召回率低并不代表算法不好、准确率高也不代表算法一定合适。此外，在智能运维领域，算法的时效性也是衡量算法优劣的一个关键指标。以指标异常检测为例，由于不同的运维人员对数据需求存在巨大区别，同时对异常的容忍程度也有不同定义，“甲之蜜糖，乙之砒霜”时有发生。针对智能运维算法的独特性，我们需要打造出通用、公平的智能运维算法评价体系，注重评价智能运维算法的鲁棒性、自适应性、可解释性、泛化能力等，为企业智能运维体系化建设提供有力支撑。

针对上述挑战，我们将在WG1通用标准的指导下，研制WG3算法治理标准，以更好地指导用户建设和完善自身的智能运维算法体系，提升面向智能运维的分析决策能力，助力企业实现全面数字化转型。

2）标准讲什么

智能运维算法标准将从算法治理、算法可解释性、精准性和性能四个方面展开阐述。

智能运维算法治理主要包括算法的安全性、合规性以及算法分类分级三方面：

安全性为算法应用提供安全保障，是决定智能运维算法是否可用的基础，只有在满足安全性要求的前提下，才能在运维领域开展应用。智能运维算法安全性评价主要从目标函数安全性、算法攻击防范能力、算法依赖库安全性、算法可追溯性、算法内控等方面提出基本要求、评价方法与判定准则等。

合规性是智能运维算法的道德红绳。我们要本着既要运用标准力量有力推动智能运维算法产业化发展，让算法要素得到快速发展，又要用好法律手段探索对于不良算法的限制与违规使用算法责任的追究。

算法分类分级是算法体系搭建的基础。类似于运维数据治理中对数据的分类分级，在算法治理中，我们同样需要对智能运维算法进行分类分级。后续WG3编写组将围绕智能运维算法分类分级的标准，进行重点讨论。

智能运维算法可解释性是判断算法是否适用的重要依据，可解释性越高，算法内在逻辑、技术实现路径、决策过程、预期目标越明晰，算法更易于被理解、匹配、应用和管理。算法可解释性评价从算法建模准备、建模讨程、建模应用三个阶段提出基本要求、评价方法与判定准则等。

智能运维算法精准性和性能是计价算法应用效果及目标预朝的主要因素，一般而言精准性和性能越高算法应用效果越好。算法精准性和性能评价从算法建模过程、建模应用两个阶段提出基本要求、评价方法与判定准则等。

WG4运维技术治理标准解读

1）为何写标准

智能运维最终交付的是应用场景，既要保障技术和效果上的先进，又需要工程化的能力来保障其高效、稳定、可靠。在这样的背景下，如何很好地组织数据、算法、算子、算力，如何更高效、更方便地定义并场景实现，哪些功能场景可以单独发挥作用，哪些功能场景需要融合解决问题，根据不同需求将功能设定不同的等级标准等等，都需要详细的标准来进行解读。

因此，希望能够通过WG4，对智能运维实现中需要的技术规范进行定义及推荐，以及结合场景分类描述技术需要达到的能力，为企业智能运维体系化建设提供有力支撑，落地运维的全方面智能化、数字化的支撑能力，助力企业实现全面数字化转型。

2）标准讲什么

智能运维技术标准以信息技术服务领域智能运维相关的运维技术的最佳实践为基础，明确信息技术服务领域运行维护服务相关的运维技术要求，借助运维技术盘活运维数据资产，赋能运维人员，增强信息技术服务领域企事业单位智能运维技术的管理和应用能力。

从运维管理的目标出发，在质量可靠方面，细分为异常检测、故障诊断、故障预测、故障自愈等基本场景；在成本管理方面，细分为智能应用系统性能检测、运维工单自动化、资源弹性收缩等基本场景；在效率方面，分为日常巡检自动化、智能作业调度、机器人巡检等基本场景。

在WG4标准部分，将按照WG1中定义的场景，同时结合WG2、WG3中进行运维数据治理、算法能力中需要的支撑能力，按照场景的分类说明实现场景中的各个环节的必要技术能力，例如针对某一类场景，实现运维数据治理、算法处理、分析、自动化需要的技术能力。

在标准中，将考虑对WG1中列举的以下运维场景进行分析，并针对分类的技术实现能力提出参考标准：

故障自愈——该场景通过实时海量数据处理、非结构化数据识别、数据关系挖掘等方式，对故障场景特征精准识别，并自动调用预设的应急动作，实现业务的快速恢复；

故障发现——该场景通过实时收集运维对象的业务交易量、成功率、耗时、系统性能、日志等数据，利用机器学习训练历史数据运行模型，实时检测运行数据，实现快速发现运维对象的运行异常状态；

故障影响分析——该场景通过综合分析业务、应用系统间依赖关系和配置数据，实现快速准确地推断某个故障的影响范围和程度；

异常根因定位——该场景通过排障决策树、对象关联图谱、故障传播影响分析等方式，实现对版本变更、业务参数调整、代码逻辑或基础设施故障带来的各种大规模、并发异常告警进行根因分析定位和根因故障推荐；

故障预测——该场景通过收集和处理运维对象历史运行数据和故障数据，建立不同技术领域的故障模型，提取故障特征，归纳故障演化规律，实现对运维对象运行趋势的动态预测；

健康检查——该场景通过自动收集运维对象信息，如性能数据、状态数据、技术数据和日志数据等，利用同类运维对象的横向比较、历史数据分布比较、最佳实践基线比较等方式，实现精准、快速、全方位的评估运维对象健康度；

资源弹性伸缩——对一组或多组资源指标进行有效监控，根据资源使用情况进行动态伸缩，当资源不足时，按约定的规模比例部署节点，并加入到当前的运行环境，当资源利用率很低时，可以回收资源，避免资源的浪费，如数据库扩容、私有云的动态伸缩、文件系统、内存、CPU等动态扩容或收缩等；

应用系统性能预测——该场景通过实时或定期自动收集CPU、I/O、内存、日志信息等应用系统性能相关数据，利用相关模型及算法，对应用系统性能消耗资源进行精准预测，实现资源合理划分，降低运行成本；

机器人巡检——该场景利用多传感器融合、软件探测和服务编排等技术，对运维对象定期巡检，根据规则判定并给出巡检结果，提升工作效率；

运维知识库智能应用——该场景通过文本识别、图像识别、语音识别、知识图谱等技术，实现运维知识检索、推荐、归纳、展示等；

智能作业调度——该场景通过利用自动化脚本、自动化流程、智能算法对运维活动中大量重复、复杂的作业进行智能化编排，实现作业时间短、质量高、资源利用均衡等目标，降低运维人员压力，提升运维服务效能；

网络安全态势感知——该场景利用大数据分析、数据挖掘、特征提取和态势预测等技术，获取和理解引起网络态势发生变化的安全要素信息，评估网络安全的状况，预测其未来发展趋势。

“标准解读-运维数据、算法、技术治理”编委介绍

连载三 |《中国智能运维实践年度报告（2021-2022）》之标准解读Part2-运维数据、算法、技术治理

· 精彩预告 ·

下期将分享围绕“趋势分析”、“组织治理”、“场景应用”、“标准应用”和“热点关注”五大方面来展现用户单位的调研分析结果，帮忙读者深入了解智能运维，详情敬请关注“双态IT联盟BOA”公众号！

新闻资讯