质量右移建四重保障实现全链路价值赋能

 

在敏捷化的软件开发过程中,如何保证产品质量和效率,实现从需求到交付、从功能到性能、从安全到可靠性的全链路价值赋能?这是软件开发团队和组织的共同课题。

 

中国联通软件研究院 - 李建斌老师在《2022-2023年测试敏捷化成熟度年度报告》中,分享了一个成功案例《质量右移建四重保障实现全链路价值赋能》。该案例从综合考虑稳定性、性能、扩展能力、自主能力提升、成本等多个因素出发,采用分布式技术解决方案,选用分布式体系架构及产品来支撑业务系统,达到降低成本、增强扩展能力、提高性能、支撑创新的目标。

 

接下来,让我们一起学习探讨该案例的背景、挑战、方案和成效吧!

 

质量右移建四重保障

实现端到端价值赋能

 

(一)系统运维复杂,稳定性保障遇挑战

 

中国联通顺应移动互联网、电子商务、5G时代潮流,从系统建设向平台建设转变,着力打造统一、集约化、云化、微服务化的IT互联网生态系统,开启业务支撑系统的数字化转型工作。

 

cBSS系统作为平台建设转变的重点,现已成为中国联通互联网化运营的核心承载平台,承担着联通全国31省B域业务,日均订单量千万笔以上。

 

中国联通在cBSS架构演进过程中,综合稳定性、性能、扩展能力、自主能力提升、成本等诸多因素考虑,整体采用分布式技术解决方案,选用分布式体系架构及产品来支撑业务系统,实现降低成本、增强扩展能力、提高性能、支撑创新。

 

由于支撑移动业务、固定电话、IPTV、宽带、国际漫游等多个业务品类,平台架构复杂,服务链路长, 故障定位难度大,解决时限难以保证,cBSS系统运维工作存在较大的管理难度和运行风险,平台稳定保障面临较大挑战。

 

(二)质量右移,建立四重保障机制

 

质量右移建四重保障实现全链路价值赋能

 

 

在集团质量工作会议指示下,2014年起以接收测试为开端,逐步开启质量右移探索工作。以四重保障机制模型为核心,构建质量管理体系标准,建设稳定性测试平台,形成各项质量保障能力。

 

第一重保障是从UAT测试理念出发,进行用户级接收测试。针对已知的管理和技术风险,结合生产运营,聚焦一线稳定,在传统研发测试过程完成单元测试、集成测试、联调测试后,以运营为主导开展质量管控右移工程,将UAT测试理念落地,在上线前模拟用户开展接收测试与生产当日的验证。

 

聚焦运营阶段的核心流程、要点工作、专题项目,纳管系统运行期间共性问题,形成整体验证列表。以总部+省分两级联动方式开展工作,通过总部下发任务,省分组织人员资源,对列表进行验证,对结果反馈进行打标,将异常项反馈至研发测试,确认是否已经发现,如未测试出问题,进一步协同研发人员、需求人员进行解决或开展异常服务回退,减少生产bug遗漏风险。通过此类测试右移真正做到了由用户开展测试,提高用户参与程度,也落实了全程软件测试思想。

 

接受测试流程

质量右移建四重保障实现全链路价值赋能

 

第二重保障是以自动化测试为基础,结合运营需要,开展自动化主动探活业务服务。自动化巡检方面,以生产运营实际需要出发,综合自动化测试实践经验,对资料查询、融合受理等关键业务与核心服务进行聚类梳理,通过UI+接口两方面开展;UI巡检方面,以开源能力为基础,通过模拟人工操作方式,在WEB端进行业务办理,在营业开始前、业务受理高峰前扫雷。

 

第三重保障是由外到内梳理各层级指标,以接口巡检贯穿全层级,提升架构问题发现准确度。UI巡检模拟人工页面操作最为真实,但是也存在业务流程长,时间粒度不够精细的问题。基于此情况,研发了接口级巡检,以链路角度出发,结合调用频率,完成cBSS系统关键服务能力API清单整理,基于接口测试技术,从运营环节拿到对应参数,形成定时巡检服务用例,实现秒级服务状态检查,提升发现频率的同时,实现了更加精准的异常点判断。

 

在自动化巡检的运行过程中,按照省域方式,进行区域化探测,期间如发现问题卡点堵点,自动评估当前问题影响范围,并将告警推送至运维侧开展排查,在处理中提供恢复验证。

 

质量右移建四重保障实现全链路价值赋能

 

基于安全风险防控与大量并发支撑角度考虑,cBSS系统跨越了F5硬负载、lb软负载、动态安全防护等多个层级。由于曾发生部分层级的变更或配置调整造成业务端到端贯通,引发系统无法使用的情况。通过模拟业务受理链路,由外到内逐层进行服务扫描,经过专家评估研判,完成各层指标级服务梳理,结合生产运营实际数据,复用接口自动化巡检能力,由外到内逐层级开展主动调用,形成架构级全层级巡检。

 

在日常使用过程中,如各层级应答正常,但个别层级响应超过2s,则认定该层异常,排查问题时从本层与上下两层进行排查,实现问题快速定位。

 

第四重保障是聚焦非功能性测试,评估系统承载能力,开展压力测试。作为中国联通的最核心平台,cBSS在向全国提供服务的同时,也向联通客服、联通APP、联通公众、联通政企等多个兄弟系统提供基础服务能力,承载性能与平台服务容量显得异常重要。

 

质量右移建四重保障实现全链路价值赋能

 

为评估cBSS系统可承载容量与平台瓶颈,选取了系统新增服务、系统高频调用服务、历史故障或问题接口三类服务展开压测。

 

对系统新增服务,在版本前进行压力测试,对照预期业务量进行评估,如未达到指定要求,开展相关优化直至符合标准。对高频告警服务、历史故障接口服务,在版本后展开性能评估,通过调用链业务量分析,评估相关服务最大并发量,按照3、5、10倍冗余准备容器化压力机,构建预期压力资源池,按照单服务实例、多实例组合场景加压,评估服务性能。

 

 压测流程图

质量右移建四重保障实现全链路价值赋能

 

对性能测试发现的问题做到当日发现,当日复盘,由运维人员、研发人员、架构人员、DBA等共同进行问题评估,确认性能问题根因,及时制定整改方案,如数据库并发及缓存优化,服务内部逻辑处理优化,慢sql语句优化等多个维度。同时明确整改时间计划,待优化后立即开展复测,直至调整服务性能至最优状态。

 

中国联通质量管理右移已带来初步成效,cBSS系统2022年全年无故障发生。后续将在“体系+平台”的思路下,通过贯彻全程软件测试理念,以测试端到端赋能业务价值链的视野,将测试的质量管理使命与生产运营的安全稳定管理使命相结合,持续探索各项稳定性保障能力,让测试发挥出更大价值,提供稳定高效的服务,做好通信领域的国家队与排头兵,支撑集团数字化转型工作展。