云原生服务稳定性保障赋能数字化转型端到端价值交付

 

云原生服务稳定性保障赋能数字化转型端到端价值交付

 

【摘要】为保障数字化转型的平稳高效地推进,贯彻落实《新一代人工智能发展规划》《数字中国建设发展规划(2021-2025年)》的要求,中国质量认证中心(CQC)会同行业专家研究并发布《云原生服务稳定性保障能力评价技术规范》,填补了行业标准空白,推动了云原生服务稳定性保障的应用。

【关键词】云原生服务 稳定性保障 评价技术规范

近年来,政府部门在《新一代人工智能发展规划》《数字中国建设发展规划(2021-2025年)》等文件中明确提出了加快推进云计算、大数据、人工智能等新一代信息技术的发展和应用,构建数字中国的战略目标。市场方面,随着数字经济的快速发展和传统行业的数字化转型,云原生【1】服务需求不断增长。

不论是传统的金融行业【2】、通信行业、政府部门,还是新兴的互联网企业,云原生服务的稳定性都是运营焦点,一旦出现故障或中断,可能会造成严重的经济损失、社会影响甚至安全风险【3】。由此,中国质量认证中心(CQC)研究并发布《云原生服务稳定性保障能力评价技术规范》,该项目从客户实际需求出发,以实践落地为原则,关注组织级云原生服务稳定性保障的能力建设。

一、云原生服务稳定性保障能力评价模型

云原生服务稳定性保障能力评价模型,即飞桨模型,主要体现“1-4-2-4”特点。“1”是指以数据保障为核心;“4”是指四种技术能力,通过可见、可管实现高效管理、持续交付;“2”是指两项统领手段。以质量视角看安全,以安全视角看质量;“4”是指四类组织级管理能力,以体系化的能力提供组织保障。(见图一)

 

云原生服务稳定性保障赋能数字化转型端到端价值交付

 

图一:云原生服务稳定性保障模型(飞桨模型)示意图

另外,云原生服务稳定性保障评价模型根据云原生的特性和要求,划分为11个评估域,31个评估子域,评估子域分解为75个评估主题,基于评估主题进一步分解为296个评估项。(见图二)

 

云原生服务稳定性保障赋能数字化转型端到端价值交付

 

图二:飞桨模型评估域示意图

二、云原生服务稳定性保障能力评价要求

云原生服务稳定性保障能力评价是为满足IT组织实现安全稳定的保障要求而设计,涵盖以下区域:
1)组织管理域:关注IT组织对云原生发展的规划,以及为此配套的文化建设和组织结构设计。
2)人员管理域:关注IT组织为保证云原生服务发展需要的各项能力,包括技术能力、领域知识、沟通能力等。同时,配套相应的能力评级和考核机制,对外包管理进行体系化管理。
3)价值流和流程域:关注价值流和流程在IT组织内的宣贯、分析和持续优化。基于业务目标和需求,建立端到端价值流,利用技术手段支持并设置分析指标。
4)持续交付域:关注IT组织在开发运维一体化中持续交付过程各项能力的建设。包括配置管理、集成与发布、协作流程,围绕持续交付做好版本管理、制品管理,在集成与发布阶段协调集成管理、测试集成和持续部署。端到端考虑持续交付过程,充分利用自动化和持续反馈,了解过程,发现不足,持续优化。

5)可观测性和监控域:从场景角度关注数据采集、数据集成和数据服务能力。通过场景构建做到可视化、告警管控、快速故障分析、提供资源性能分析和预测以及应用性能的监控、分析和预测【4】

6)资源管理域:关注云原生资源的规划、建设和运营。通过整体规划保障系统的性能、可靠性和可扩展性。通过资源运营具备资源编排、调度和调优能力,同时做好资源回收策略和机制。

7)质量管理域:关注应用系统的质量管控。介入到需求规范、开发质量对软件质量进行左移管理,同时通过右移对应用系统的变更和运行进行监控。

8)数据保障域:关注数据的治理、管理和运营。在IT组织内建立数据管理规范,质量管理规范,指导数据质量的检验、分析和提升。

9)安全管理域:关注基于云原生的基础架构安全、开源安全、应用安全和安全运营。对开源安全做了专项要求,从开源规范、准入准出、组件分析和威胁识别等方面做了要求和规范【5】

10)技术管理域:关注IT组织对云原生技术的重视程度。从组织层面制定技术规划,考虑技术创新,编制技术规范,指导和推动技术在组织的应用。

11)应用管理域:关注应用的高可用、应急灾备以及服务的发现和管理。基于云原生架构制定高可用规范,支持分布式脚骨、负载均衡、架构冗余、故障切换、自动扩缩容、灰度发布等。当意外情况发生,具有应用灾备支持能力等。
三、云原生服务稳定性保障能力评价推广的意义

云原生服务稳定性保障能力评价技术规范的制定与评价工作的开展,填补了国内在组织层面标准化的空白,推动了云原生服务稳定性保障建设工作,不仅能够保证组织在数字化转型阶段业务稳定发展的需求,也有助于促进组织的体系化保障能力,实现安全与稳定、效率与质量、风险与合规之间的平衡。

参考文献:

[1]云原生技术赋能数智化转型升级[J]. 陈国.电信工程技术与标准化,2021(05),1-9;

[2]分布式系统架构下银行应用系统的性能测试技术研究与实践[J]. 张春华;夏雯君;孙明慧.中国金融电脑,2018(10),62-66;

[3]商业银行云原生转型实践探讨[J]. 王如迅.金融科技时代,2021(10),46-51;

[4]面向数据全生命周期的数据安全风险分析[J]. 彭超;靳黎忠;李中文;邢帅;张华龙.数字通信世界,2022,99-101;

[5]云原生安全风险分析与应对策略研究[J]. 陈信刚;王思羽;刘坚桥.江西通信科技,2022,40-42;

(本文原载于《质量与认证》2024.06)

关于

云原生服务稳定性保障能力评价技术规范

《云原生服务稳定性保障能力评价技术规范》是由中国质量认证中心(CQC)发布,旨在指导和规范认证机构对金融、能源电力、互联网企业、通信运营商等领域单位的组织或部门在云原生服务稳定性保障能力方面的评价工作。

该标准涵盖了需求、开发、测试和运维等各个环节,包含组织管理、人员管理、价值流和流程、持续交付、可观测性与监控、资源管理、质量管理、数据保障、安全管理、技术管理以及应用管理等,实现了端到端的全链路价值交付的评估体系,为业务运营提供组织级稳定性保障的方法论、实践和标准。技术规范具备以下三个特点:

  • 组织级:技术规范强调组织级保障能力的必要性,通过组织的优势聚合各方面的能力进行保障规划和落地实施。
  • 跨领域:技术规范从稳定性保障角度出发,以应用系统为主线贯穿开发、测试、运维的保障全流程,实现跨领域的管理。
  • 重质量:技术规范强调云原生服务稳定性保障的本质是端到端的质量管理,通过全局质量视角看稳定性保障的设计和执行。

 

如果您想了解或者咨询“云原生服务稳定性保障能力评价技术规范”相关内容,欢迎扫描下方二维码,添加翰纬科技咨询总监“孙翊威”的微信(添加时,请备注姓名、单位、职务),期待与您的交流!

 

云原生服务稳定性保障赋能数字化转型端到端价值交付