引言

随着“数字化转型”工作深入推进,数据资产已成为企业重要的无形资产,应用数据安全和业务连续也备受关注。因此,为保障IT系统可用性、信息数据完整性,提升灾难恢复能力、应急响应能力及业务连续能力,建设完善的灾备体系显得极其重要,本文将围绕灾备建设三部曲来浅谈灾备建设。

01 灾备建设三部曲

灾备建设的目的是确保用户的业务永续运行,在建设过程中,科学严谨的方法论是确保灾备项目能够正常运转的前提。我们将灾备建设分为三部曲:业务连续性规划、方案设计、方案实施。
 

业务连续性规划
 

灾备建设的最终目的就是要保护业务的连续性运行,其具体要求需要通过进行业务连续性规划来确定。因此,业务连续性规划是进行灾备建设的大前提,没有业务连续性规划,灾备建设就没有意义,充其量只能做到数据不丢失,不能及时恢复业务运行。

目前流行的DRI业务连续性十大惯例是国际通用的BCM规划方法适用于企业和业务功能,当然也适用于IT系统。业务连续性规划确定了保护业务的各项要求(如RTO、RPO等),支持业务运行的IT系统自然就要根据这些要求确定相应的IT系统恢复目标和恢复策略,主要内容包括:

 

  • 规划启动与管理

  • 风险分析

  • 业务影响分析

  • 业务连续性策略

  • 突发事件响应

  • 计划编制与实施

  • 认知与培训规划

  • 业务连续性计划的演练、审计和维护

  • 危机沟通

  • 与外部机构的协调

 

灾备规划时需要考虑风险分析和业务影响分析。

风险分析;标识IT系统的资产价值,识别IT系统面临的自然的和人为的威胁,识别IT系统的脆弱性,分析各种威胁发生的可能性,并定量或定性描述可能造成的损失。风险分析是IT系统灾备建设需求发起的重要依据。

 

(1)分析要素

开展风险分析的过程中,应全面和准确的识别IT系统的威胁、脆弱性和损失等三个要素。

 

威胁是一种对IT系统构成潜在破坏的可能性因素,是客观存在的。

1)脆弱性是对IT系统弱点的总称。脆弱性识别是风险分析中最重要的一个环节。脆弱性识别可以从环境、网络、系统、应用等层次进行识别。脆弱性识别的依据可以是国际或国家安全标准,也可以是行业规范、应用流程的安全要求。在分析企业IT系统面临风险的脆弱性时,主要从以下两个方面考虑:

 

  • 技术脆弱性,如物理环境、应用系统的安全问题。

  • 管理脆弱性,包括技术管理和组织管理两个方面。

 

(2)风险识别

风险分析的首要步骤是风险识别。风险识别是指识别并记录可能对IT系统造成不利影响的因素,是风险分析中最为基础的步骤。风险识别没有一个单一的方法和工具,是一个充满智慧的知识管理过程。风险识别过程中经常使用的方法包括:使用已有的风险清单;向该领域专家或有经验人员了解;查阅已造成损失的风险因素的历史记录等。

 

IT系统所面临的风险主要包括:

1)各种区域性的自然灾难:如地震/地陷、暴雨/洪水、台风/龙卷风/强热带风暴等;

2)人为事故或蓄意破坏造成的严重灾难:如火灾、爆炸、环境污染事件、流行疾病、恶意破坏等;

3)物理环境的破坏:如机房的安保、消防、电源、空调、承重等要素受到损害,机房的结构性破坏等;

4)计划外系统故障:系统处理能力下降、人为操作故障、系统软硬件故障、安全体系被攻破;

5)破坏性网络安全事件:应用系统被攻击被破坏或瘫痪;业务数据被篡改或被破坏;网络遭受攻击而瘫痪;恶意代码感染系统而宕机等;

6)计划内系统维护:如应用软件的升级、备份/恢复/归档、数据中心迁移、整合测试、灾难恢复演习等。

上述风险因素都应纳入风险分析的范围,并且应对各种风险的可能来源进行较准确的定位。

 

(3)分析方法

当前最传统也最广泛的风险分析方法主要是基于知识分析法、基于模型分析法、定量分析法、定性分析法。最近几年也出现了一些分析工具。上述分析方法共同的目标都是找出企业信息资产面临的风险及其影响,以及目前安全水平与企业安全需求之间的差距。

 

1)基于知识分析法

基于知识分析法又称作经验方法,采用这种分析方法,风险分析团队不需要通过繁琐的流程和步骤,可节省大量精力、人员、时间和资源;只需通过特定途径收集相关信息,识别企业当前的资产、资产所存在的漏洞、组织的风险和当前采取的安全措施等信息,与特定的标准或最佳实践进行比较,从中找出不符合的地方,并按照标准或最佳实践推荐选择安全措施,最终达到降低和控制风险的目的。

 

2)基于模型分析法

基于模型的评估可以分析出系统自身内部机制中存在的危险性因素,同时又可以发现系统与外界环境交互中的不正常和有害的行为,从而完成系统脆弱点和安全威胁的定性分析。由于目前没有非常完善的模型,因此这种方法较少使用。

 

3)定量分析法

定量分析就是对风险的程度用直观的数据表示出来。其主要思路是对构成风险的各个要素和潜在损失的程度赋予数值或货币金额,度量风险的所有要素(资产价值、弱点级别、脆弱性级别等)都被赋值,计算资产暴露程度、控制成本以及在风险管理流程中确定的所有其它值时,尽量具有相同的客观性,这样风险分析的整个过程和结果都可以被量化。

 

4)定性分析法

定性分析法是目前采用最为广泛的一种方法,它与定量风险分析的区别在于不需要对资产及各相关要素分配确定的数值,而是赋予一个相对值。通常通过问卷、面谈及研讨会的形式进行数据收集和风险分析,涉及各业务部门的人员,它带有一定的主观性,往往需要凭借专业咨询人员的经验和直觉,或者业界的标准和惯例,为风险各相关要素(资产价值、威胁、脆弱性等)的大小或高低程度定性分级。通过这样的方法,对风险的各分析要素赋值后,可以定性的区分这些风险的严重等级,避免了复杂的赋值过程,简单且又易于操作。

 

(4)分析过程

为了能全面、有效的分析企业信息资产所存在的风险,又没有安全因素的遗漏,有必要按照一定的流程和步骤进行风险分析。用于灾难恢复建设的风险分析过程不等同于常规的信息安全风险评估,它主要是从与灾难恢复相关的方面来进行分析的,比如数据中心基础设施、用户相应的管理制度、应急计划等方面来考虑。风险分析的主要过程如下:

  • 确定风险分析范围;

  • 确定风险分析目标;

  • 确定风险分析团队;

  • 确定风险分析方法;

  • 资产识别;

  • 威胁识别;

  • 脆弱性识别;

  • 己有安全措施的确认;

  • 风险计算;

  • 残余风险确认;

  • 风险分析报告编制。

 

业务影响分析;通过风险分析,可以得到各业务系统的资产价值、脆弱性和所面临的威胁。业务影响分析在对各业务系统所实现的业务功能及其相关资源配置进行分析的基础上,明确定义上述业务功能因受到风险因素影响而失去作用时,可能对企业资产或正常运作等造成的损失,确定企业关键业务功能及其正常运作所需要的最小资源支持(包括业务系统、人力和物力等),为灾备系统定级提供依据。

 

(1)分析内容和方法

业务影响分析主要包括分析业务功能和相关资源配置以及评估中断影响两项主要内容。

 

业务影响分析通常采用问卷调查、人员访谈和会议讨论等方法,对业务功能、相关业务部门和人员职责、业务流程、业务中断所造成的损失等资料进行收集。依据上述资料,明确各业务功能之间的依赖关系,明确支撑业务功能正常运行的IT系统资源和其他资源。结合定性/定量的分析方法,评估业务中断所可能造成的影响。因此,能否制定适合企业情况的调查问卷和实施流程是业务影响分析能否成功的关键。

 

(2)分析过程

从企业IT系统及其业务功能出发,重点分析各IT系统对业务功能的实现情况。同时,以业务功能间的关联关系为线索,分析各IT系统之间的数据交换、功能依赖等关系,作为确定IT系统重要程度和灾难恢复优先级别的重要依据。

 

(3)业务影响分析指标设置

在进行业务影响分析的过程中,对于业务系统不同的方面,需从多个维度制定不同的指标来进行分析。

 

1)客户体验维度

该维度下指标反映出客户在使用产品或者服务的过程中建立起来的心理感受,体现服务客户的原则,包括服务不可替代性、服务中断不可容忍时间、服务响应、产品客户、服务时间等。

 

2)系统属性维度

该维度下指标反映了IT系统自身的属性及特点,包括客户/用户数量、交易/事务笔数、交易/事务峰值、系统关联度等。

 

3)运行环境维度

该维度下指标是IT系统正常运行所需要的一些基本条件:包括供应商、人员、设备、场地等,反映了在灾难发生时,IT系统恢复运行所必要的条件,包括供应商依赖度、人员依赖度、设备要求和场地要求等。

 

4)企业影响维度

该维度下指标反映出IT系统对企业经营的影响程度,包括收益损失、声誉影响、客户损失、业务重要度等。

 

(4)系统灾备等级评估

IT系统指标评定是通过既定的评分标准,结合系统特点对各项指标的符合度进行系统灾备分级评价。

 

基于设定完成的指标按极高、高、中、低四个等级进行赋值,并通过系统指标评价评价总分反映出系统的重要程度,并初步根据得分在所有指标最高总分的占比来提出IT系统的灾备等级建议,以及明确系统的灾难恢复目标。
 

方案实施
 

有了IT系统的恢复方案,只能够保证在灾难发生时,IT系统的恢复能够支持业务的恢复目标,但是业务的连续性并不只是IT系统的恢复。因此,灾备方案在设计中还需要综合考虑办公场地和设备、灾备管理流程及恢复预案、组织架构等多方面。

 

只有业务执行过程的每一个环节都达到灾备目标的要求,才能够认为灾备方案的目标得到了满足。因此,需要制定一个完整的灾备计划,来统一协调各部门在灾难发生时的行动计划。同时制定灾备计划时需要确保其与企业业务连续性计划协调一致。

 

一般来说,每个企业都应该设立一个由领导挂帅,各业务部门和IT部门联合组成的一个灾难恢复组织。

 

灾备体系的搭建经常需要涉及到公司内多个部门的协调,因此在方案实施的过程中,需要把每项工作的内容、目标要求、实施的方法步骤以及督促检查等各个环节都做出具体明确的安排,具体落实到工作分几个阶段、什么时间开展、什么人来负责、领导及监督如何保障等。方案在实施的过程中具有很强的规定性,表现在两个方面:

 

一方面,方案实施要根据方案分析和方案设计的具体操作流程进行,而不能是随意进行。有效的灾备操作流程往往可以节省大量的时间和减少错误。反之,就会带来不必要的损失。例如,在虚拟环境下的灾备系统,就要提前规划需要用几台服务器去虚拟出二十、三十,甚至上百台虚拟服务器,而且需要长期运行。如果没有好的操作流程,不利于灾备中心的运维。

 

另一方面,方案实施工作具有强制性,一旦开启,相关部门企业就要按照具体计划认真组织实施,不能马虎应对。

02 总结

综上所述,灾备建设绝非一个简单的系统工程,需全方面考虑人、流程、资源等关键要素。