数据中心灾备起源
据不完全统计,在灾难发生之后,如果无法在14天内恢复信息系统的运行,有75% 的公司业务会完全停顿,20% 的企业在两年之内被迫宣告破产。911事件在世贸大厦大部分的企业由于重要信息系统的破坏,关键数据的丢失而永远的关闭。而在世贸大厦25层的摩根斯坦利公司,当事发几小时后,该公司宣布:全球营业部可以在第二天照常营业,这都是因为该公司在新泽西州建立了灾备中心。灾备起源于上世纪70年代的美国,1979年,美国的IT公司SunGard在费城建立了世界上第一个灾备中心,提供企业IT系统的数据和系统备份。是“911”事件 推动数据中心灾备的发展。
数据中心灾备重要性
1、数据中心服务中断的影响大到政府的信誉,关系到社会的稳定,小到百姓和民生生活。
2、数据中心的灾备是企业信息安全的最后一道防线。
3、它的终极目标是确保组织单位的数据不丢,业务不停,在规定的时间内持续、稳定地对外提供服务。
什么是数据中心灾备
灾备=备份+容灾,备份是保护被保护对象安全,冗灾是在灾难发生时保护的对象还能够提供有效的服务。
数据中心灾备:备份保护对象是数据,冗灾是当数据中心遇到各种(自然灾害、设施故障、应用系统故障、人为操作失误、攻击等)灾难时,尽最大可能快速恢复业务运行,提供持续的服务,减少损失。
数据中心灾备包括:异地机房(这个机房可以自建或租赁)、支持数据备份和信息系统连续服务需要的网络和IT设备、保障运行组织架构和人员、灾备响应的处理流程和管理等多个方面,数据中心灾备是一个复杂的系统工程和体系。
数据中心灾备技术
二、数据中心灾备的关键指标和等级以及能力
数据中心灾备的关键指标、等级和能力
数据中心灾备关键指标
• RTO(Recovery Time Objective)业务系统恢复时间目标
• RPO(Recovery Point Objective)数据恢复点目标
• DOO(Degraded Operations Objective)业务系统降级运行目标
• NRO(Network Recovery Objective)网络恢复目标
• APIT(Any Poit In Time)任意时间点回退
灾备可以提供全面数据保护
数据中心灾备能力
三、数据中心灾备建设
灾备数据中心的选址和安全等级要求
灾备数据中心设施建设
灾备中心业务系统的建设----风险分析
灾备中心业务系统的建设----重要性和恢复次序
灾备中心业务系统的建设----举例重要性和恢复次序
灾备中心业务系统的建设----业务系统的部署
信息系统灾备的部署
按照RTO、RPO、DOO、NRO、APIT的指标和恢复次序部署相应的灾备环境,这些环境包括:
(1)网络系统:链接生产中心和客户的终端;
(2)存储系统:采用同步和异步的复制技术确保数据的同步。
(3)IT服务器:部署灾备需要的相应的服务器和操作系统。
(4)应用系统:在IT服务器上部署灾备需要的相应的应用系统和中间件。
(5)应急指挥系统:监控灾备系统的运行、灾难发生时接管,并提供相
应的服务。
灾备中心业务系统的建设----组织架构和人员
四、数据中心的应急响应
数据中心灾备的应急响应----应急预案管理
数据中心灾备的应急响应----应急预案管理
应急预案制定与管理
数据中心根据应急事件的分类,制定相应的应急预案,应急预案应包括:
(1)预案的场景、影响范围、恢复的目标(RTO、RPO、DOO、NRO、APIT);
(2)应急管理组织;
(3)应急恢复决策及授权,包括应急恢复条件、权限、处置策略以及强制决策点等;
(4)通知通报路径;
(5)操作流程,包括响应、损害评估、指挥中心指挥和人员召集、灾难预警、灾难宣告、启动灾难切换流程等;
(6)应急处理技术方案和操作手册;
(7)应急处理过程中需要的其他资源;
(8)参与机构和人员、联络方式。
数据中心灾备的应急响应----应急演练管理
应急演练管理
应急演练管理包括应急预案的培训、制定应急演练计划、实施应急演练、应急演练后评价以及应急预案的持续改进。演练是为了验证灾难恢复预案的正确和可用,训练指挥人员和运维人员掌握和提高应急处置的能力。演练的主要形式包括:
1、桌面演练:桌面演练是由应急组织的指挥和相关岗位人员参加的,按照应急预案,以会议的形式讨论紧急情况时应采取行动的演练活动。桌面演练的特点是对演练情景进行口头演练,其目的是锻炼参演人员了解各自的职责,熟悉操作流程和解决问题的能力。
2、模拟演练:模拟灾难场景,利用灾难备份系统和灾难恢复预案模拟系统切换和业务恢复,通常不涉及真实的业务操作。
3、实战演练:模拟灾难场景,利用灾难备份系统和灾难恢复预案完成系统切换和业务的接管,涉及真实的业务操作,在演练完成后需进行数据和环境的回退。
数据中心灾备的应急响应----应急演练管理
数据中心灾备的应急响应----应急响应
数据中心灾备应急响应和处置
数据中心灾备应急响应的和处理流程分为发现、响应、处理、验证四个阶段。
数据中心灾备的应急响应----应急响应
在应急响应和事件的处理过程中,由数据中心应急指挥小组启动和关闭应急事件,应急处理流程应包括:
(1)采取必要的控制措施,最大限度地保护运行系统和数据安全,抑制事态恶化,降低损失;
(2)调度相关资源,由应急技术和执行小组按照应急预案,恢复中断服务的系统,应急保障小组做好后勤的保障;
(3)应急管理小组跟进应急事件处理进展,实施应急事件的情况通报、信息发布、客户的解释和安抚工作;
(4)应急指挥小组根据应急事件的处理情况实施应急事件升级或降级指挥;
(5)应急事件恢复后的系统验证;
(6)记录应急事件处理过程的信息,信息内容包括:事件发生的时间、事件请求处理的时间、报告人和受理人、事件处理的派发时间和处理人接单时间,恢复的时间、事件处理的耗时、事件处理过程、发生事件的原因(或现象)、解决方案等相关信息;
(7)完善相关的技术文件;
数据中心灾备存在的问题与发展趋势

