灾备运营服务体系
灾备运营管理体系是指为保障业务连续性和数据安全,通过规范化流程、智能化工具及常态化机制,对灾备资源进行全生命周期管理的系统性框架。其核心要素及实践要点如下:
核心建设思路:
---统筹集约与分类分级
实现跨区域(如部中心与省级节点)统一标准、统一保护、统一运维,告别“各自为政”模式。 按业务重要性分级制定灾备策略,精细化匹配资源需求。
---业管分离与集中监管
灾备操作与管理职责分离,确保流程制度化、规范化。 建立集中监控平台,实时掌握全国灾备资源状态,提升整体服务质效。
---平战结合与价值释放
灾备副本数据用于业务查询、开发测试、演练恢复等场景,最大化数据价值。 通过常态化演练验证灾备有效性,确保“战时”快速切换能力。
---安全可靠与弹性扩展
构建全链条安全体系,规避技术“卡脖子”风险。 灾备架构需预留弹性,支持未来业务增长与技术演进。
关键技术支撑
---自动化运维平台
实现灾备“一键切换”,降低人工操作风险,缩短RTO(恢复时间目标)。 支持多场景演练管理,可视化监控切换流程与任务执行状态。
---智能监控与分析
集成数据复制监控、资源状态跟踪等功能,实时感知系统健康度。 利用预测分析优化资源规划,避免冗余浪费。
组织与流程保障
---预案场景化管理
依托灾难恢复预案生成多类灾难场景,按场景编排切换流程。
---闭环式持续改进
建立“规划→实施→演练→评估→优化”闭环,递进式提升灾难恢复能力。 定期输出可用性报告,满足合规审计与SLA评估需求。
数据存储与灾备中心运营服务体系的基础是ITIL(ISO20000),它用于保证灾备系统基本的高可用性,根据灾备服务对于质量可控,可审计和安全性等的要求,参考ISO9001服务质量管理标准,ISO27001信息安全标准以及项目管理的最佳实践,适应出一套适合灾备中心运营管理整合行之有效的服务管理体系。
整个服务体系在灾备系统运营的“服务水平协议”(SLA)而运行,它的主要架构基本保持不变,主要由三大部分构建而成,包括:
灾备核心服务
“灾备核心服务”是用于区别灾备服务和其他IT服务(如产品维护服务,软件开发服务)不同的关键服务。它的目的是实现灾备的核心目标。这部分服务又包含了三种层次化的服务,即
---基本运营服务(Foundation Service, 简称“FS”)
为保障灾备系统数据库以下层面的系统高可用性而持续提供的运行、技术支持和管理服务,主要的参考管理标准是ISO20000和ISO9001
---专业运营服务(Professional Service, 简称“PS”)
为计划性的验证灾备系统可以达成灾备目标而开展的各项服务,主要的参考管理标准是ISO9001
---灾难恢复服务(Disaster Recovery Service, 简称“RS”)
在灾难实际发生时,提供的预警、宣告、切换、恢复、后续运行等一系列服务
这三种服务之间的关系可以用图三进行描述
信息安全管理
灾备系统作为生产系统的延伸,其存储运行的数据安全性要求不亚于生产数据。所以在灾备运营服务体系中,还特别纳入贯穿整个灾备核心服务的“信息安全管理”(Information Security Management),以实现灾备系统运营管理总体机密性、完整性和可用性的目标。其主要的参考管理标准是ISO2700等。
服务水平管理
无论是灾备核心服务还是信息安全管理,都需要有健全、有效的服务水平管理机制。为此,在体系中加入了“服务水平管理”。通过对服务水平的记录、跟踪和分析以及和客户良好的沟通与展现,可以最大程度的消除在服务过程中实际服务水平和约定值之间可能存在的偏离,以保障交付的服务达到客户的服务水平要求。其主要的参考方法论是项目管理和ITSS等。
年度灾备服务方案
基于上述灾备服务体系,除了继续提供已有的常规服务外,专门计划了新的一年特定向发展中心提供的年度服务内容。通过这样的计划和方案,我们希望能更好的协调双方的资源,加强管理和协作,便于跟踪进度,从而为实现年度服务目标提供保障。
类别
|
服务项目
|
新一年计划实施的服务
|
服务水平管理(SLM)
|
内部审核机制
|
与往年保持一致
|
|
客户检查机制
|
建立定期检查机制
|
|
服务沟通机制
|
l 根据变化,改进接口文档
l 高层团队全年定期拜访计划
l 服务月报的调整以及版本控制
|
|
回顾计划机制
|
l 制定年度服务计划
l 安排年度总结会议
|
信息安全管理(ISM)
|
人员资质及权限管理
|
与往年保持一致
|
|
运行操作安全管理
|
与往年保持一致
|
|
灾难应急恢复 |
|
基本运营服务(FS)
|
服务商管理
|
l 整理设备日常维护表
l 整理服务商巡检报告单
|
|
事件管理
|
与往年保持一致
|
|
问题管理
|
与往年保持一致
|
|
变更管理
|
与往年保持一致
|
|
配置管理
|
与往年保持一致
|
|
容量管理
|
与往年保持一致
|
专业运营服务(PS)
|
服务范围
|
l 扩展灾备服务范围
|
|
灾备预案管理
|
l 更新灾备预案,实现版本管理并在月报中体现
l 制作“灾备应急卡”
|
|
数据验证
|
l 全年数据验证计划
|
|
灾备演练
|
l 全年演练计划
|
|
专业培训
|
l 业务连续性相关技术和管理的培训
|
建立定期沟通机制
建议双方共同定期检查、评审数据存储与灾备服务的质量,发现服务工作中的不足,帮助提高灾备中心的服务管理水平,检查的内容包括,
日常操作维护
日常运营管理
项目交付物质量
服务及项目的过程控制
每一次检查后,服务团队都将提交完整的检查报告,对于检查中发现的问题,我们将制定改进计划进行修正。独立的流程管理团队会负责记录、跟踪,直至确认问题得到有效的修复。
改进灾备预案管理
改善灾备管理预案
每次演练结束后,服务团队都将和服务对象单位一起整理审阅现有的灾备预案,对其中所包含的连续性文档做必要的梳理和更新。更新后灾备预案分别由双方进行保管。
制作灾备应急卡
灾备运营服务中,服务团队和服务对象单位一起设计并制作“灾备应急卡”。 灾备应急卡体积很小,一般可以直接放入皮夹,公文包、或者名片夹中,随身携带或置于办公桌面。灾备应急卡上会简明扼要的标注出灾难处理中最为关键的信息,例如,
灾备流程启动的场景
情况下紧急通讯电话
关键管理和技术人员联系电话
灾难预案的编号和访问方式
全年演练计划
灾备专业服务团队依据全年的灾备演练计划,具体时间会综合考虑双方的总体工作安排和资源就绪情况:
数据验证:除双方约定外,原则上数据验证的周期为半年一次,估计本年度约有14次数据验证工作;
演练计划:除双方约定外,原则上演练的周期为每单位一年一次;估计本年度约有 6次演练;
专业灾备技术及管理培训
为了增强对业务连续性和信息系统应急及灾难恢复体系的认识,提升体系建设和运维的管理水平,服务专业团队将根据业务的实际需求,并结合灾备建设项目,有针对性地组织和准备教材,开展信息系统业务连续性管理的相关知识和行业实践的培训课程:
业务连续性基础知识
应急文档及演练基础知识
行业灾备案例和典型技术介绍
灾备运营服务体系年度整体工作计划表
|
具体工作安排
|
1月
|
2月
|
3月
|
4月
|
5月
|
6月
|
7月
|
8月
|
9月
|
10月
|
11月
|
12月
|
服务水平管理SLM
|
服务质量定期检查
|
|
|
|
|
|
√
|
|
|
|
|
|
√
|
接口文档调整
|
|
|
|
√
|
|
|
|
|
|
|
|
|
|
高层拜访
|
|
|
√
|
|
|
|
|
|
|
√
|
|
|
|
服务月报内容更新以及版本控制
|
|
|
√
|
|
|
|
|
|
√
|
|
|
|
|
本年度服务计划
|
|
|
√
|
|
|
|
|
|
|
|
|
|
|
基本运营服务FS
|
月度运行报告
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
整理灾备中心设备列表
|
|
|
|
√
|
|
|
|
|
|
|
|
|
|
整理设备日常维护表
|
|
|
|
√
|
|
|
|
|
|
|
|
|
|
整理服务商巡检报告单
|
|
|
|
√
|
|
|
|
|
|
|
|
|
|
完成中心机房搬迁
|
|
|
√
|
√
|
√
|
|
|
|
|
|
|
|
|
专业运营服务PS
|
改进灾备预案管理
|
|
|
|
|
|
|
|
√
|
|
|
|
|
制作灾备应急卡
|
|
|
|
|
√
|
|
|
|
|
|
|
|
|
扩展服务范围
|
|
|
|
√
|
√
|
√
|
|
|
|
|
|
|
|
数据验证
|
|
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
√
|
|
演练
|
|
|
|
|
√
|
√
|
√
|
|
√
|
√
|
√
|
|
|
专业培训
|
|
|
|
√
|
|
√
|
|
|
√
|
|
|
√
|
|
提交节假日保障函
|
√
|
√
|
√
|
|
|
|
|
|
|
√
|
|
|
灾备集中管理化可实现特色功能:
多备份域管理
灾备资源集中管理
保护对象集中分配,分级管理
灾备数据集中收集和统计
统一用户和租户体系,支持单点登录控制台
集中更新升级
灾备运营可视化 :具有DashBoard全局灾备可视化,实时监控系统运行情况,监控维度包括:
灾备资源使用情况;
备份数据量及趋势;
灾备任务执行情况;
灾备设备运行情况;
客户端数据保护情况;
虚拟化平台数据保护情况;
云平台数据保护情况;
备份性能监控;
策略执行情况;
系统告警情况。
可视化管理可以帮助客户开展全面的运维操作,全局监控助力客户完成事前预警、事中反馈、事后分析,高效处理事故,降低数据丢失风险。

