连载九 |《中国智能运维实践年度报告（2021-2022）》之实践案例分享Part4-国泰君安证券翰纬科技

Hi朋友，实践案例分享精彩不断，本期为大家带来“国泰君安——模型与数据双驱动的智能运维平台”案例分享。

背景

我国证券业处于快速发展的历史机遇期，资本市场改革和金融体系开放为券商带来业务增量的同时，也对其金融科技实力和抗风险能力提出了更高要求。

首先，证券交易系统的稳定运行关系到金融安全、社会稳定和广大投资者的合法权益。

其次，证券行业由于交易时段集中、交易规模巨大的业务特点，对IT系统的可用性和响应效率有着严苛的要求。同时，交易时段所带来的海量交易数据的集中处理压力，使得券商的IT系统运维工作也面临更大挑战。

最后，证券公司机构化趋势愈发明显，基金公司、QFII和私募投资公司等专业客户对交易系统的稳定性、速度和安全性有更高要求，对信息系统故障的容忍度也更低。

经过多年持续发展，传统运维的流程和技术已经非常成熟，而随着业务规模不断增长和系统功能日趋复杂，越来越多的运维场景和问题无法用传统方法来解决，运维效率也难以适应快速变化的复杂场景需求。所以应当更加关注如何持续提升运维自身的效率，解决传统运维方法难以解决的问题。这就好比从马车到汽车是为了提升运输效率，而当汽车已经普及的时候，我们又希望利用自动驾驶技术把驾驶员从开车这项体力劳动中解放出来，不仅可以增加运行效率，同时也可以减少交通事故率，这也是我们对智能运维的诉求。

近年来，行业同行也先后开展基于机器学习与运维大数据的智能运维体系建设，在此期间智能运维算法一直在快速地迭代发展：从数据角度看，算法的分析对象包括性能指标等时间序列数据、日志告警数据以及CMDB、调用链等基于拓扑图的数据；从应用场景来看，当前主流智能运维算法包括指标异常检测、容量预测、日志聚类、日志日常检测、告警压缩、根因定位等。

方案介绍

基于当前的智能运维形势，我们认为智能运维算法若要继续发展到更高阶段，不仅需要数据驱动，而且需要克服现有数据驱动方案的不足，建立可表征复杂系统运行状态的模型，以模型与数据双融合的方式，还原系统的内部运作机制，构建复杂系统的全维观测能力，达到全面、准确、及时把握动态变化的高维复杂状态空间的目的，满足检测IT复杂系统隐性故障、分析和预测系统稳定性等需求。

连载九 |《中国智能运维实践年度报告（2021-2022）》之实践案例分享Part4-国泰君安证券

平台以运维数据湖和运维图谱为数据支撑，运维数据湖包含运维监控指标，如性能指标、业务指标、应用日志、业务日志等数据，运维图谱则包含了系统基础设施层和应用层的属性及关联关系。

首先是对系统运行状态的感知。通过在线人数、交易量、响应时间、成功率等指标的检测，实时感知节点及系统运行状态，及时发现系统异常，揭示潜在风险。同时，通过语义分析，文本聚类等方式，对系统关键模块的日志进行实时主动检测，通过日志模式、数量的改变揭示应用异常。

在平台检测出指标/日志异常之后，会自动触发异常原因定位。在应用层面会触发对交易明细的多个维度进行分析，从故障业务系统异常时间段的大量交易明细中，分多种属性维度统计后进行异常检测，根据候选根因集的指标变换率和包含关系等进行排序，返回可能引起故障的根因集，比如成功率下降是否集中在某些版本或者某些返回码、成功率下降是不是集中在某个渠道、某一类型交易等，帮助运维人员快速判断异常排查方向。在基础设施层，平台会利用运维图谱找到该应用所关联的基础组件如包括主机、数据库、网络等，对这些组件的关键指标进行分析，得出存在异常波动的指标，便于及时发现由于基础设施故障引起的应用问题。

算法简述

（一）单指标异常检测

通过实时收集运维对象的业务交易量、成功率、耗时、系统性能数据，分析指标数据的各种特征，包括周期性、趋势性、周期偏移情况、数据抖动程度、上下限极值等，然后根据特征选择合理的算法进行组合和训练并生成对应的模型，实时比对运行态和模型的差异，实现快速发现运维对象的运行异常。

（二）日志异常检测

日志是运维人员最关注的一类数据，日志中往往隐藏着很多有价值的信息，甚至是问题的根因。当前基于人工规则检测日志异常的方式存在归类设置告警困难、日志变化频繁、错误日志数量多难以阅读等问题。为了解决以上问题，需要对生产日志进行模式提取，基于提取的日志模式的时序趋势，根据同环比、基线偏离度、波动性、时间窗口等特征判定异常，达到快速感知日志模式的变化的目的。

（三）多维定位分析

业务指标（如交易量、在线人数、失败数、响应时间等）是系统常见的监测指标。当系统级别的业务指标总体值发生故障时，想要进一步解释异常发现的原因，快速判断异常程度最高的维度属性是关键的一步。比如某交易系统的业务日志包括功能号、渠道、省份、客户端版本、操作系统类型、主机等维度，当某个操作系统的某个版本出现问题时，由于维度组合过多，无法手工计算得到，因此需要算法分析得到。且算法需要解决由于元素间存在复杂关系导致的难以衡量任意一个元素集合的是根因的问题以及维度多带来的巨大空间搜索问题。

（四）机器定位分析

部分故障可能是由于基础设施组件故障引起的应用问题，特别是在服务器数量较多、应用告警和基础设施告警大量产生时，如何快速定位问题是个挑战。机器定位分析算法可以在异常发现后，通过运维图谱数据获取应用依赖的基础设施、应用间依赖等关系，利用指标聚类、时序检测等算法排查存在异常波动的机器指标，提升故障排查效率。

总体来说，平台会实时检测系统指标数据、日志数据实现对系统运行状态的建模，结合多维明细定位和机器指标定位实现模块间作用影响分析，构建对实际生产系统的数字化表达，实现IT故障检测以及定位分析。

（五）可观测的数字孪生模型

采用数字孪生方法论将复杂IT系统抽象为灰盒模型，并实现算法的前后端打通，通过实时在线数据驱动建模，监控君弘低延时系统的运行状态，基于模糊测度和马尔科夫链理论评估系统健康度、发现系统隐性故障、辅助故障根因定位。

可观测的数字孪生分析体系的构建可以分解为两个阶段：

连载九 |《中国智能运维实践年度报告（2021-2022）》之实践案例分享Part4-国泰君安证券

图1数字孪生内驱的基础理论方法

第一阶段引入指标相关图，基于大量的历史数据重构IT系统内各指标之间的关系，建立系统内各指标相互之间的非线性影响的量化模型，采用自上而下的层级关系描述系统内不同组件、模块之间的依赖关系，构建系统指标层面的拓扑结构，准确把握系统的运行状况，从而能够为实时监控系统状态、评估系统健康水平、预测/诊断系统故障提供系统整体层面的量化模型。为解决对统计数据有着较强的依赖性的问题，如图1所示。

连载九 |《中国智能运维实践年度报告（2021-2022）》之实践案例分享Part4-国泰君安证券

图2自下而上的模型构建还原

第二阶段将从底层自下而上构建数字孪生镜像模型，融合各类异构数据、特性模型构建开放、可扩展的基础数据平台，实现IT平台全局可观可测可控。使得在系统结构或业务环境发生改变后，可通过相对应的调整让数字孪生镜像模型适应系统的变化，形成一整套系统健康度的智能检测系统，使数字孪生系统与实际系统不断地共同迭代改进，如图2所示。

另一方面，每个特定IT平台都有其确定的功能和QoS指标考核要求，从QoS指标出发可以分解得到数字孪生模型各个节点、模块、接口的性能要求，通过系统实现功能、协议标准、专家经验、基于历史数据的参数辨识等方法则能确定影响性能要求的基本输入特征，这些输入特征可来源于各类观测值、二次分析结果、专家经验等各类信息，全面、精简、准确的数字孪生特征建模也是运维知识图谱的基础。

价值与效益

通过系统可观测体系的构建，将具有如下优势：

1.能感知（可观）。应用数字孪生技术，把运维对象数字孪生化，构建数字孪生可视化的界面。通过对系统健康状态的数字孪生构建，建立系统健康评估体系和方法论，实现系统健康可视化。运维人员通过界面可以直观感受系统的健康度以及影响的关联。同时，监控平台覆盖了运维全领域，拥有维度丰富的数据，结合智能运维算法智能发现故障，可对数据中心整个运行组件做到全感知。

2.会描述（可测）。数字孪生中的数字虚体，用于描述物理实体的可视化模型和内在机理，便于对物理实体的状态数据进行监视、分析推理、优化模型参数，实现决策功能，即赋予数字虚体和物理实体一个大脑。

3.自执行（可控）。知其然，并知其所以然，是数字孪生的核心理念；做到知其所以然，了解系统内部的各种影响的互动关联机制，才能有的放矢，自主解决问题，实现真正的可控。

4.数据底座。要建设上面提到的三种能力，数据底座是基础。我们通过整合各监控工具，对数据进行统一采集、存储和管理，打破数据孤岛，实现统一的数据视图，拓展数据应用的深度和空间，充分发挥数据价值。

连载九 |《中国智能运维实践年度报告（2021-2022）》之实践案例分享Part4-国泰君安证券

· “实践案例分享-国泰君安”编委介绍 ·

特别鸣谢：

国泰君安证券股份有限公司俞枫

国泰君安证券股份有限公司曾宏祥

国泰君安证券股份有限公司毛梦非

国泰君安证券股份有限公司吴康

国泰君安证券股份有限公司王厦

· 精彩预告 ·

下期将分享新华三的实践案例之“数智革新引领IT转型升级”，详情敬请关注“双态IT联盟BOA”公众号！

新闻资讯