
2020年初爆发的新型冠状病毒感染的肺炎疫情让各行各业进一步意识到了在突发灾难后保障业务连续性的重要性。业务连续性管理(BCM)这一新兴概念在我国的发展仍处于萌芽阶段,多数企业尚未建立BCM机制或对BCM的认知与实践仍较为片面甚至落后。因此,建立科学、先进、全面的BCM机制势在必行。

突发灾难应对是一项复杂的工程,风险管理、应急管理、危机管理是除BCM之外最具代表性的几种管理机制。应急与灾备的管理则是确保业务连续性的重要组成部分,应急与灾备的方案是否适合企业的业务要求,是否可落地实施将直接关系到企业在遇到灾难时的持续运营的保证。
基本概念
应急与灾备
应急与灾备是指发生灾难时的应急处理与灾难备援,是利用科学的技术手段和方法,提前建立系统化的数据应急方式,以应对灾难发生。其内容包括,业务连续规划(BCP)、人员架构、通信保障、危机公关、灾难恢复规划(DRP)、业务恢复预案、应急事件响应、第三方合作机构和供应链危机管理等等。
应急与灾备的发生
虽然每个行业所面对的应用场景不同,但万变不离其宗,根据已发生的灾难现象分析,通常情况下灾难发生的原因有以下几种:

知识与技术
备份
备份是指数据或系统的备份,它是容灾的基础,是指为防止系统出现操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程
按照备份数据量,可分为:全量备份、增量备份、差量备份。

通过备份时间区分,分为定期备份和实时备份;数据保护技术有CDP(Continual Data Protection)连续数据保护技术和高可用系统(主备方式Active-Standby和双主机方式Active-Active)。
业务连续性(BC)和业务连续性管理(BCM)

业务连续性是指在中断事件发生后,组织在预先确定的可接受的水平上连续交付产品或连续提供服务的能力。针对时间场景一般分为三类:一般故障、紧急事件、灾难事件。实现业务连续性所需的IT措施包含三个方面,业务状态数据的备份和复制、业务处理能力的冗余和切换、外部接口冗余和切换。
业务连续性管理是一套一体化的管理流程,通过该流程可识别组织面临的潜在威胁以及这些威胁一旦发生可能对业务运行带来的影响,并为组织提供一个指导框架来建立有效应对威胁的自我恢复能力,从而保证关键相关方的利益、声誉、品牌和创造价值的活动。业务连续性管理是一个长期的不断完善的循环过程,须遵循国际标准的PDCA循环模型。
主要指标
评估一个灾备系统可靠性的两个重要指标是RTO和RPO

RTO(Recovery Time Objective)恢复时间目标,指灾难发生后,从系统宕机导致业务停顿之刻开始,到系统恢复至可支持业务部门运作,业务恢复运营之时,此两点之间的时间,也可简单描述为企业可容忍的恢复时间。
RPO(Recovery Point Objective)恢复点目标,指灾难发生后,容灾系统能把数据恢复到灾难发生之前时间点的数据,它是衡量企业在灾难发生后会丢失多少生产数据的指标。可简单描述为企业能容忍丢失的最大数据量。

简单区分的话,RPO是灾难发生之前的时间, RTO是灾难发生之后的时间。
DRI“BCM的6R模型”

BCM过程步骤

步骤1 - BCM方案管理
方案管理的建立(如果有必要)和维护组织的业务连续性能力,与组织的规模和复杂程度相适宜。这第一步骤中,文件化BCM的范围和BCM核心团队及其角色和职责被批准是关键问题。
步骤2 – 理解组织
与此步骤相关的活动是提供决定组织产品和服务的优先次序的信息,识别关键的支持活动及其资源,业务影响分析(BIA)和风险评估也是这个阶段的关键部分。
步骤3 - 确定业务连续性管理策略
允许选择适当的响应优先的业务活动,使得组织遇中断后能够在预先设定的时间内恢复和继续提供产品或服务,在开发持续计划之前需预先定义的关键时间,如MAO、MBCO、MTPD、RTO和RPO。
步骤4 – 开发和实施BCM响应
涵盖了开发应急响应、危机管理和业务连续性计划,详细阐明在中断中及中断后采取维持和复原优先级业务过程,或运营到预先定义水平的步骤。
步骤5 – 演练、维护和评审BCM安排
在计划的时间间隔内进行演练,以达到业务连续性目标和识别改进机会,可以让组织证明其战略及计划和与目标的符合性。
步骤6 – 嵌入BCM在组织文化中
这使BCM成为组织的核心价值的一部分,在组织所有相关方的各层级中灌输信心,应对中断;企业需要培训那些负责执行BCM、响应中断,以及受计划影响的相关人员;组织不仅应把计划落到实处,还应定期审查计划得到更新,确保其有效性;组织可以考虑将多个管理体系整合,以最大限度地提高效率。

