Hi朋友,上期分享了必示科技的实践案例,下面让我们来看一看本期内容之“擎创科技——AIOps如何助力实现全面可观测性”

 

随着数字化经济的飞速发展,企业数字化转型已经成为了必然趋势。从传统运维向智能运维(AIOps)建设发展的过程中仍存在诸多挑战,从业务层面的表象上,比如监控的误报漏报多、趋势预测能力缺失、综合根因定界及定位分析的手段少、规划资源使用的方法少等等;从运维系统的状况进行深层挖掘,又能发现运维数据数量庞大、类别繁多且分散,加之新旧格式的碰撞以及业务视角的断层,使得数据治理难、运营分析难。除此以外,在数字化转型的过程中,运维双态(即敏态与稳态)共存的情况给企业的数字化业务也带来了极大的挑战。

 

 

市场背景

 

管理学大师彼得·德鲁克曾说过:“如果你不能度量它,你就无法管理它。”换在智能运维的管理决策中来讲就是想要做好管理,就要先对它进行度量,而这就是Gartner早先提出可观测性的概念。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

Gartner在今年的报告中提到,可观测性正逐渐成为企业智能运维中的高优先级项目,之所以出现这样的情况,是由于企业的业务发展中具有很多不可预测的情况发生,这就要求企业数字化能力中要着重加强自动检测、可观测性和可修复性。可观测性作为之中极为关键的一环,正以其能大幅提高运维事务处理效率的优势,在逐步替代传统的监控仪表。Gartner预测未来的2-5年,可观测性将进入成熟期。届时,智能运维的整体水平将会得到变革性的提升。

 

 

什么是可观测性

 

从字面上来讲,可观测性即是通过检查其输出来衡量系统内部状态的能⼒。这种能力的雏形是在企业的数字化转型过程中,早先被看重的数据可视化能力,即通过决策大屏让数据通过视觉的形式呈现出来,比如图表、图形、地图等等,让运维人员更容易的理解数据、统计数据以及运用数据,进而更加准确有效的传达与沟通信息。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

而可观测性,并不只是单纯的可视化,它是基于可视化的本质能力上,将三大支柱数据(指标、日志、追踪)关联并融合,使得业务决策有据可循、日志记录和解释更具根源性的分析,交易在业务组件中的流动过程更加清晰可见。同时,经过对CMDB的梳理可得到第四种支柱数据(资源拓补)。最终,这四种支柱数据共同形成以业务为顶,自上而下的观测模型。

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技


 

可观测性能带来的价值

 

日益增长的业务价值关注度,让单纯的可见性必须向以数据为驱动的洞察能力升级,这个过程中可观测性的价值就会逐步体现。

 

(一)将数据转化为答案

 

在决策层面从业务视角出发观测全局状况,进而利用可人工干预的算法模型对告警进行收敛,对历史数据进行分析,聚焦定位根因来源,结合AI的短期趋势预测,再利用资源规划功能,获取对未来趋势的预判结果,实现主动的数据预测

 

(二)数据处理过程更灵活

 

集合数据任务的编排和调试能力、可交互的检测模型调优及管理、场景化的编排引擎,使数据白盒化的接入、处理、输出,完成任务的诊断。并且能够及时反馈异常检测的结果,精细化调整日志的检测模式。最后形成多种运维场景下定制化的可观测编排引擎,灵活搭配业务场景实现数据的全面处理

 

(三)实现跨团队协作的高效性

 

通过统一的观测视角,能够建立与运维业务相关的规则引擎,完成基于组织架构的权限配置,根据团队分工进行任务分派,形成有策略、按需求的协同协作体系,保持业务运营的高效性

 

(四)实时大规模的观测

 

通过流批一体的高性能计算引擎以及集群化和多中心的部署,加之对异常检测模型的实时更新和训练,稳定且高效的适应多中心等复杂环境。在大规模的业务数据进入时,能够有效做出应对操作。

 

 

可观测性的建设实践

 

如前文提到,建设基于AIOps的全面可观测性需要能对四大运维支柱数据进行基本处理(如清洗,提取,聚合等),而后关联融合(如通过标签传递,CMDB同步等),再实现简单功能场景(如指标异常检测,多维分析,告警收敛等),最终通过可视化引擎将其编排成贴合运维事务中的综合场景,如“紧急处置”,“复盘分析”等。建设可观测性,从总体上来讲也是为了对运维全流程进行监测和追踪,对应用运行风险实行全面管控。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

(一)可观测的数据采集及管理

 

四大支柱数据的传统分析工具往往各自孤立,但是所采集的源头,也就是被监控对象却是相同的。根据大多数企业中的实战经验往往分为五层,依次为“业务-应用-软件服务-基础资源-基础环境”,这五层的数据采集方式往往有很大差异。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

首先以业务端数据的采集为例,一般指的是业务交易的数据,典型的就是交易日志,一般分为落盘的文件采集和不落盘的流推送消费。通过对交易日志进行清洗,提取以及聚合统计,可将其持久化成经典的黄金三指标(业务成功率,交易量和平均响应时长),而交易日志本生也可串联为追踪数据,对业务进行端到端的观察。

 

再者对于基础资源的数据,需要对常用的操作系统日志(诸如message,syslog等)做收集,对“算、存、传”的资源指标进行采集,通常数据源会来自于zabbix或Prometheus,最终通过数据中台的流式处理持久化为资源指标,而在CMDB侧最重要的运维主数据,目前多会利用系统代理的发现能力,将主机和以及其上运行的软件服务进行闭环管理。

 

一般来说对于大型金融机构,如上的运维数据处理链条会有数百上千,这就需要对整个链条的管理和编排都要能做到可观测才能心里有底。

 

可观测性的前期阶段,很多数据处理工作都是需要人工来完成,而对于多维的数据来源以及复杂的数据关系处理,需要一个集中的数据平台或数据中台来支撑。同时应该能以非常低的成本实现数据的处理,包括对数据的编排、调试以及发布等操作。降低数据准备的成本,提升数据处理的效率,为分析场景做好数据支撑。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

(二)场景化分析

 

在可观测的场景化分析过程中,还是要遵从自顶向下的分析逻辑。首先要对整体的业务运行状态以及应用健康状态进行监测。包括业务健康墙、应用健康概览以及报告中心等不同展示方式。

 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技


关注应用的核心指标以及实时运行状态。当出现问题时(实时告警)可快速切换至异常处理的流程中。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

通过告警自动降噪以及收敛的能力,能够快速对问题场景化,指导问题的分析路径,实现面向业务的主动式告警。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技


有了指标化的数据可进一步探索关联及下钻的问题。通过不同的角度观测告警,如个性化定制工作台,告警全生命周期追踪,拓扑时序融合分析等。通过交易链路分析进行时序回溯寻找根因事件,结合链路分析锁定问题的源头和错误内容。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

对于发现到的问题可以总结归纳,从指标、日志等分析维度进行验证。

 

从日志中可以按日志模式进行异常检测,从而更早地发现异常问题;对于指标的变化可通过学习历史数据规律规划容量并预测变化趋势。

 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

(三)构建可观测的决策体系

 

运维自动化和智能化的大趋势中,系统可观测性是建设的基础一环,完善的可观测体系可以帮助我们屏蔽系统的复杂性,使系统整体的运行状态清晰可见,在故障防御和排查方面发挥巨大的作用。

 

同时我们在进行可观测的体系建设时,一定要注意以服务决策为导向。一方面事前做好各方面的监控,分层次,找关联;另一方面在观测到问题后应该能够快速评估问题影响,收敛问题并找到根因。在整个分析的过程中不断积累总结经验,持续优化到可观测体系中。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技
 

 

可观测性的用户收益

 

建设基于AIOps的全面可观测性的用户收益总结为以下四点:

 

  • 快速根因定位

 

基于AIOps的全面可观测性能够帮助运维人员快速发现故障的原因。通过排障信息的集中共享,全局可视化,能够减少跨部门沟通协调的时间。

 

  • 降低运营成本

 

实时监控和预测能力会得到大幅提升,降低业务损失可能性。能够智能优化业务和资源的配比关系,有效节约运维投入的人力成本。

 

  • 激活数据价值

 

能够从业务视角智能分析运维数据,洞悉业务价值,优化运营决策。

 

  • 提升IT运营效能

 

平均排障时间能够缩短至分钟级,可以达到10倍以上提升数据处理效能。
 

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技

· “实践案例分享-擎创科技”编委介绍 ·

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技

连载十三 |《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part8-擎创科技

 

· 精彩预告 ·

下期将是本次连载的最后一期啦,会对整体情况进行一个回顾与展望,详情敬请关注“双态IT联盟BOA”公众号!