1.1.1 风险分析
风险分析是指认识并分析各种潜在危险(包括种类和发生概率),并定量或定性描述可能造成业务中断的灾难和事故可能造成的损失。
建立容灾工程的最终目的是保证在灾难造成对业务数据破坏后,业务数据的可恢复性。所以,首先要分析各种潜在危险,即影响业务数据安全性的灾难有哪些种类(自然灾难、社会灾难、IT系统灾难和人为灾难),检查可能造成数据损失或者系统瘫痪的外在和内在因素。同时充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。
自然灾难:包括火灾、台风、水灾、地震等突发自然灾害造成的业务系统的灾难。自然灾难的特点在于不同地区的自然灾害的发生有一定的统计概率,且灾害的影响范围有一定的区域。因此在建立灾备中心时,必须要注意在备中心的选择,建立在自然灾害较少的地方。
社会灾难:包括企业运行所依赖的服务的中断(电力中断、租用网络中断等)、恐怖分子制造的爆炸、战争引起定点破坏等灾难。因此必须建立完整的数据备份机制。
IT系统灾难和人为灾难:包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒发作造成的数据灾难,以及IT设备硬件、软件故障等。这种灾难可以统称为“软灾难”,因此,必须有有效的机制来保证数据可以回溯,在灾难发生时,系统可恢复到人一个有效状态。
1.1.2 业务影响分析
业务影响分析是在风险分析的基础上,对各种无法规避的灾难对客户业务的影响力进行具体的评估,包括无形的影响力(如企业形象、客户满意度等)和可量化的影响(如收入损失、资产损失等),并确定容灾系统的实施和运行可能对系统造成的影响,确定关键业务功能、其恢复优先顺序和相关性。
数据复制操作的发起来自业务系统,因此肯定会影响到业务系统的性能,对于那些要求高性能的业务系统或者已经是高负荷运行的业务系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不同,比如,一个采用同步镜像技术的容灾方案,如果灾备中心与生产中心的距离超过100公里以上,需要考虑数据传输的时延对业务系统IO性能造成的影响,距离越远,业务系统IO性能下降的速度越快
同时容灾系统运行平稳后,需要对灾备数据(数据库)的可用性进行检查,而检查的过程是否对业务系统正常运行产生影响。
另外,还需要确定关键业务以及关键业务运行的时间段,用于制定灾难恢复优先级顺序。
1.1.3 成本分析
容灾系统的建立和用户的成本密切相关。从投入的角度来说,建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。
因此,要考虑准备建设的容灾系统与正在运行的业务系统的延续性,保护前期投资,为了建立新容灾系统而对原有业务系统进行大规模改造的情况,应该尽量避免。
其次,要考虑业务系统扩展对容灾系统的影响,特别是存储容量增加的影响和通信线路负荷的影响。
另外,考虑到灾难“小概率、高风险”的特性,可以在容灾的成本与风险可能造成的损失之间取得平衡,确定每项关键业务功能的灾难恢复策略,不同的业务功能可采用不同的灾难恢复策略。
1.1.4 容灾指标
要建设容灾系统必须提出容灾系统设计指标,作为衡量和选择容灾方案的参数。目前,国际上通用的容灾系统的评审标准为国际标准SHARE78,它定义了以下一些容灾系统的评审点:
备份/恢复的范围
灾难恢复计划的状态
生产中心与灾备中心之间的距离
生产中心与灾备中心之间如何相互连接
数据是怎样在两个中心之间传送的
允许有多少数据被丢失
怎样保证更新的数据在灾备中心被更新
灾备中心可以开始容灾进程的能力
SHARE78只是建设容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以灾备中心的设计指标主要与容灾系统的数据恢复能力有关。因此上述的评审标准映射到具体的方案设计指标,主要有RTO、RPO和容灾半径三个。
除了技术方面的指标要满足用户需求以外,还需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。同时数据一致性、软灾难处理、灵活性和兼容性也是高质量容灾方案的重要指标。
1.RTO
RTO,Recovery Time Objective,是指灾难发生后,从应用服务器系统业务停顿之刻开始到应用服务器恢复业务之时,此两点之间的时间段称为RTO,如图4-2所示。

RTO是衡量容灾方案恢复能力的指标。一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着需要投入大量的资金,购买更高性能的设备和高可用性软件,以及部署专用的高速网络。
2.RPO
RPO,Recovery Point Objective,是指从数据可用性而言,应用服务器恢复业务需要的数据的时间点,和发生灾难的时间点之间的时间段。换而言之,企业可以接受多长时间的数据丢失。如图4-3所示。

RPO是衡量灾备中心与生产中心数据一致性的指标。在同步方式下,RPO等于数据传输时延的时间,在异步方式下,RPO基本为异步传输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
因此,在容灾系统中,不仅仅要求在异地有一份数据拷贝,同时必须保证异地数据的完整性、可用性。
3.容灾半径
容灾半径是衡量容灾方案所能承受的灾难影响范围的一个指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择,如图4-4所示。

4.TCO和ROI
如果容灾方案能够把由于灾难而导致的业务停顿时间显著缩短,将间接为客户创造了收益。
同时,从经济角度考虑,最佳的容灾解决方案不一定是性能最好的容灾解决方案,容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。TCO包括建立系统、维护系统和扩充系统的总投入,由于容灾系统的启用概率很低,新技术的发展和新产品的性能价格比的提高,必定造成容灾设备的贬值。所以,对于容灾系统TCO越高,ROI越低。
5. 数据一致性
由于大部分业务系统都是数据库应用结构的,业务系统容灾实际上就是数据库容灾,因此实现数据库容灾的难度是始终要保证数据库的一致性。
6. 软灾难处理
容灾系统应该具有防范各种灾难的能力,特别是具备抵御人为破坏的能力,即软灾难发生时,快速、有效地恢复业务。
7. 灵活性和兼容性
由于业务不同模式的IT系统在升级过程中,会采用新技术和新产品,业务系统任何变动都会引起容灾系统相应的变化,势必加大系统升级的投入。要想把这种变化的影响降低到最小,容灾系统的灵活性和兼容性也应该是十分重要的指标。

