核心能力与特性
云上容灾交付服务白皮书-目录
容灾领域发展趋势
本文讨论的内容引用了相关标准的术语和定义,并结合了行业和案例的特性进行了补充。
行业合规性要求
自 1979 年全球首个容灾系统建立起,全球尤其是数字化组织逐步提升对容灾的重视程 度。特别是进入到云和大数据时代后,信息系统及数据已经成为重要的生产要素,直接 影响到组织的正常运行。相关国际组织分别制定了一系列灾难恢复标准或法规,如: ISO22301、SHARE78、GDPR 等。而我国历来重视基础设施的安全保护,政府及行 业出台了一系列国家标准及法规,大力支持容灾建设,要求各组织确保有能力应对灾难 及保护信息数据安全。
JR/T 0168-2018 中对容灾等级进行了定义,其中的关键指标如下:
RTO:恢复时间目标(recovery time object),指灾难发生后,信息系统或业务功 能从停顿到必须恢复的时间要求。
RPO:恢复点目标(recovery point object),指灾难发生后,系统和数据必须恢复 到的时间点要求。
应用于金融领域的云计算平台容灾能力等级关键指标要求
容灾技术架构
容灾技术架构是业务连续性领域里面的子项,根据国际通用的容灾系统建设思路,架构 设计需要关注如下问题:
备份 / 恢复的范围
容灾计划的状态
业务中心与容灾中心之间的距离
业务中心与容灾中心之间如何相互连接
数据是怎样在两个中心之间传送的
允许有多少数据被丢失
怎样保证更新的数据在容灾中心被更新
容灾中心可以开始容灾进程的能力
围绕上述问题,本文将从技术角度上,对主流的四种架构进行介绍,分别是:同城容灾、 异地容灾、两地三中心和异地多活。严格意义上讲,异地多活属于异地容灾的范畴,由 于其架构在业务效果上和其他架构有不少区别,为了描述方便,本文单独将异地多活划 分为一种技术架构。本文在描述容灾架构的时候,默认的前提是基于阿里云的技术能力。
容灾技术架构选型
从用户视角看,同城容灾、异地容灾、两地三中心、异地多活,都需要遵循一定的架构前提, 需要统筹考虑业务容灾指标、防范的灾难类型、投入成本等。从机房选址、业务适配成本、 数据同步技术、容灾切换等几个方面看,四种典型容灾架构的主要特征对比如下图所示:
综合上述分析,容灾架构的选型,是灾难恢复目标和建设成本的综合结果。
交付标准化参考框架
容灾是一个系统化、体系化的工程,通常会覆盖分析、规划、设计和实施环节。项目是否成功、是否达到设计目标,需要多种手段进行分阶段管理和衡量。通过容灾演练来验 证容灾建设效果是最直接有效的手段,只有成功的演练才能最好地证明设计和交付的正确性。但同时,容灾演练是具有较大风险的过程,稍有闪失可能导致业务或数据损失。 为了保证容灾演练的成功和灾难恢复预案的有效性,本文结合多个项目的交付经验,总结出一套适合容灾项目交付的标准化参考框架,称之为“五阶十三步”。
五阶:
面向管理人员,标记交付过程的关键里程碑,并定义出容灾项目分阶段的验收范 围,包括:需求分析、现状调研、容灾方案设计、演练方案设计、演练实施。
十三步:
面向技术人员,定义出每个阶段的关键技术动作,方便不同的技术人员有相同 的标准化流程可遵循,包括:可交付评审,应用调研,云平台调研,基础设施调研,总 体方案设计,云平台容灾部署,应用容灾设计,应用容灾部署,演练场景设计,应急预 案设计,DRP 方案设计,演练实施,演练复盘。

