Hi朋友,上期分享了必示科技的实践案例,下面让我们来看一看本期内容之“擎创科技——AIOps如何助力实现全面可观测性”。
随着数字化经济的飞速发展,企业数字化转型已经成为了必然趋势。从传统运维向智能运维(AIOps)建设发展的过程中仍存在诸多挑战,从业务层面的表象上,比如监控的误报漏报多、趋势预测能力缺失、综合根因定界及定位分析的手段少、规划资源使用的方法少等等;从运维系统的状况进行深层挖掘,又能发现运维数据数量庞大、类别繁多且分散,加之新旧格式的碰撞以及业务视角的断层,使得数据治理难、运营分析难。除此以外,在数字化转型的过程中,运维双态(即敏态与稳态)共存的情况给企业的数字化业务也带来了极大的挑战。
市场背景
管理学大师彼得·德鲁克曾说过:“如果你不能度量它,你就无法管理它。”换在智能运维的管理决策中来讲就是想要做好管理,就要先对它进行度量,而这就是Gartner早先提出可观测性的概念。
Gartner在今年的报告中提到,可观测性正逐渐成为企业智能运维中的高优先级项目,之所以出现这样的情况,是由于企业的业务发展中具有很多不可预测的情况发生,这就要求企业数字化能力中要着重加强自动检测、可观测性和可修复性。可观测性作为之中极为关键的一环,正以其能大幅提高运维事务处理效率的优势,在逐步替代传统的监控仪表。Gartner预测未来的2-5年,可观测性将进入成熟期。届时,智能运维的整体水平将会得到变革性的提升。
什么是可观测性
从字面上来讲,可观测性即是通过检查其输出来衡量系统内部状态的能⼒。这种能力的雏形是在企业的数字化转型过程中,早先被看重的数据可视化能力,即通过决策大屏让数据通过视觉的形式呈现出来,比如图表、图形、地图等等,让运维人员更容易的理解数据、统计数据以及运用数据,进而更加准确有效的传达与沟通信息。

可观测性能带来的价值
日益增长的业务价值关注度,让单纯的可见性必须向以数据为驱动的洞察能力升级,这个过程中可观测性的价值就会逐步体现。
(一)将数据转化为答案
在决策层面从业务视角出发观测全局状况,进而利用可人工干预的算法模型对告警进行收敛,对历史数据进行分析,聚焦定位根因来源,结合AI的短期趋势预测,再利用资源规划功能,获取对未来趋势的预判结果,实现主动的数据预测。
(二)数据处理过程更灵活
集合数据任务的编排和调试能力、可交互的检测模型调优及管理、场景化的编排引擎,使数据白盒化的接入、处理、输出,完成任务的诊断。并且能够及时反馈异常检测的结果,精细化调整日志的检测模式。最后形成多种运维场景下定制化的可观测编排引擎,灵活搭配业务场景实现数据的全面处理。
(三)实现跨团队协作的高效性
通过统一的观测视角,能够建立与运维业务相关的规则引擎,完成基于组织架构的权限配置,根据团队分工进行任务分派,形成有策略、按需求的协同协作体系,保持业务运营的高效性。
(四)实时大规模的观测
通过流批一体的高性能计算引擎以及集群化和多中心的部署,加之对异常检测模型的实时更新和训练,稳定且高效的适应多中心等复杂环境。在大规模的业务数据进入时,能够有效做出应对操作。
可观测性的建设实践
如前文提到,建设基于AIOps的全面可观测性需要能对四大运维支柱数据进行基本处理(如清洗,提取,聚合等),而后关联融合(如通过标签传递,CMDB同步等),再实现简单功能场景(如指标异常检测,多维分析,告警收敛等),最终通过可视化引擎将其编排成贴合运维事务中的综合场景,如“紧急处置”,“复盘分析”等。建设可观测性,从总体上来讲也是为了对运维全流程进行监测和追踪,对应用运行风险实行全面管控。
(一)可观测的数据采集及管理
四大支柱数据的传统分析工具往往各自孤立,但是所采集的源头,也就是被监控对象却是相同的。根据大多数企业中的实战经验往往分为五层,依次为“业务-应用-软件服务-基础资源-基础环境”,这五层的数据采集方式往往有很大差异。
首先以业务端数据的采集为例,一般指的是业务交易的数据,典型的就是交易日志,一般分为落盘的文件采集和不落盘的流推送消费。通过对交易日志进行清洗,提取以及聚合统计,可将其持久化成经典的黄金三指标(业务成功率,交易量和平均响应时长),而交易日志本生也可串联为追踪数据,对业务进行端到端的观察。
再者对于基础资源的数据,需要对常用的操作系统日志(诸如message,syslog等)做收集,对“算、存、传”的资源指标进行采集,通常数据源会来自于zabbix或Prometheus,最终通过数据中台的流式处理持久化为资源指标,而在CMDB侧最重要的运维主数据,目前多会利用系统代理的发现能力,将主机和以及其上运行的软件服务进行闭环管理。
一般来说对于大型金融机构,如上的运维数据处理链条会有数百上千,这就需要对整个链条的管理和编排都要能做到可观测才能心里有底。
可观测性的前期阶段,很多数据处理工作都是需要人工来完成,而对于多维的数据来源以及复杂的数据关系处理,需要一个集中的数据平台或数据中台来支撑。同时应该能以非常低的成本实现数据的处理,包括对数据的编排、调试以及发布等操作。降低数据准备的成本,提升数据处理的效率,为分析场景做好数据支撑。
(二)场景化分析
在可观测的场景化分析过程中,还是要遵从自顶向下的分析逻辑。首先要对整体的业务运行状态以及应用健康状态进行监测。包括业务健康墙、应用健康概览以及报告中心等不同展示方式。
关注应用的核心指标以及实时运行状态。当出现问题时(实时告警)可快速切换至异常处理的流程中。
通过告警自动降噪以及收敛的能力,能够快速对问题场景化,指导问题的分析路径,实现面向业务的主动式告警。
有了指标化的数据可进一步探索关联及下钻的问题。通过不同的角度观测告警,如个性化定制工作台,告警全生命周期追踪,拓扑时序融合分析等。通过交易链路分析进行时序回溯寻找根因事件,结合链路分析锁定问题的源头和错误内容。
对于发现到的问题可以总结归纳,从指标、日志等分析维度进行验证。
从日志中可以按日志模式进行异常检测,从而更早地发现异常问题;对于指标的变化可通过学习历史数据规律规划容量并预测变化趋势。
(三)构建可观测的决策体系
运维自动化和智能化的大趋势中,系统可观测性是建设的基础一环,完善的可观测体系可以帮助我们屏蔽系统的复杂性,使系统整体的运行状态清晰可见,在故障防御和排查方面发挥巨大的作用。
同时我们在进行可观测的体系建设时,一定要注意以服务决策为导向。一方面事前做好各方面的监控,分层次,找关联;另一方面在观测到问题后应该能够快速评估问题影响,收敛问题并找到根因。在整个分析的过程中不断积累总结经验,持续优化到可观测体系中。
可观测性的用户收益
建设基于AIOps的全面可观测性的用户收益总结为以下四点:
-
快速根因定位
基于AIOps的全面可观测性能够帮助运维人员快速发现故障的原因。通过排障信息的集中共享,全局可视化,能够减少跨部门沟通协调的时间。
-
降低运营成本
实时监控和预测能力会得到大幅提升,降低业务损失可能性。能够智能优化业务和资源的配比关系,有效节约运维投入的人力成本。
-
激活数据价值
能够从业务视角智能分析运维数据,洞悉业务价值,优化运营决策。
-
提升IT运营效能
平均排障时间能够缩短至分钟级,可以达到10倍以上提升数据处理效能。
· “实践案例分享-擎创科技”编委介绍 ·
· 精彩预告 ·
下期将是本次连载的最后一期啦,会对整体情况进行一个回顾与展望,详情敬请关注“双态IT联盟BOA”公众号!