参照ISO27001、ISO9001、ISO20000(ITIL)、ITSS等国际、国内和行业标准以及最佳实践的要求,根据灾难备份和业务连续性的服务重点及运营特点,将“IT服务管理最佳实践库ITIL”确定为自身的管理核心,建立了更加规范、高效的运营管理体系,用以规范数据中心的日常工作及保持持续稳定的运行。

运营管理服务体系是以国际通行的IT服务管理标准——ITIL为基础,结合灾难备份运营服务的专业特点而建立的。多年来,运营管理服务体系历经了多个客户、多种平台的灾备系统长期稳定运行的检验,并且在不断吸取国内国外灾备服务行业先进经验的基础上,灾备中心的运营管理服务体系日臻丰富完善。

整个服务体系归纳概括为灾备中心运营服务的“三大要求、四大服务方面” :
三大要求
运营服务的高响应要求——其是整个服务体系的重中之重,也是对灾难恢复系统运营外包服务公司专业度与服务质量的最直接考验,其关注的是服务的及时性与客户导向。
运营服务的高可靠要求——其是整个服务体系的保障,从管理手段和服务流程上保证响应度与可用性的落实。具体体现在对现有人员、资源与技术在执行层面上的标准化、制度化、规范化。
运营服务的高可用要求——其是整个服务体系的基础,从中心资源、业务正常处理流程与人员的支持上,为应急响应、系统切换与接替生产运行的服务工作奠定基础。
四大服务方面
o服务人员——主要指落实包括服务内容、服务接口与服务流程在内的各项具体服务的人员基础。
o服务内容——主要指提供的专业灾难恢复系统运营外包服务的具体内容。
o服务流程——主要是为规范内部尤其是涉及到灾备系统层面所执行的各项工作流程,从制度上保障上述各项服务的顺利提供。
o服务接口——主要指提供服务的各种界面,目的是使双方之间的信息与要求能实现无缝衔接。

基于ITIL标准体系,根据灾备系统运营服务的特点,进一步强化四大服务方面的具体内涵,形成专业灾难恢复系统运营外包的服务体系具体框架,具体:

项目角色
|
姓名
|
职位
|
岗位职责描述
|
项目经理
|
高级项目经理
|
本项目协调管理,资源组织
|
|
质量管理团队
|
IT服务部总监
|
本项目服务质量控制,关键节点把控
|
|
运维服务团队-系统运维 (驻场服务团队)
|
高级工程师
|
本项目驻场服务的日常系统维护,数据备份、恢复,存储维护等,问题及故障的处理
|
|
高级工程师
|
|||
工程师
|
|||
运维服务团队-系统运维(本地数据中心机房运维服务团队)
|
高级主管
|
本地数据中心机房的日常系统维护,数据备份、恢复,存储维护等,问题及故障的处理
|
|
工程师
|
|||
咨询服务团队
|
资深顾问
|
实施增值服务,包括数据验证、演练和培训
|
|
高级顾问
|
|||
高级顾问
|
|||
开发实施服务团队
|
开发工程师
|
服务工具、监控工具等开发
|
|
运维服务团队-数据中心基础设施(本地数据中心机房运维服务团队)
|
高级经理
|
数据中心场地整体管理
|
|
值班主管
|
数据中心场地日常值班人员管理
|
||
高级电气工程师
|
数据中心强电维护
|
||
电气工程师
|
数据中心强电维护
|
||
基础设施
工程师
|
基础设施维护
|
||
暖通工程师
|
制冷、新风等维护
|
运维管理阶段划分

在服务的具体实施过程中,从服务核心到服务细项形成了完整的服务体系,此外还以时间为主线将灾难恢复系统运营服务提供的过程划分成日常运营、应急与恢复、接替生产运营三个阶段,每个不同阶段的工作重点各不相同,真正切合客户的需求。具体如下表:
日常运行服务
|
灾难应急和恢复服务
|
接替生产运营服务
|
|
服务 目标
|
高可用性
高可靠性
|
高响应度
|
高可靠性
高可用性
|
服务 内容
|
日常监控与维护服务
系统验证服务
安全管理服务
灾难恢复演练服务
灾难恢复预案维护服务
|
灾难应急及恢复服务;
|
接替生产运营服务;
|
服务 人员
|
日常运营团队
技术支持团队
客户服务团队;
|
应急响应团队
技术支持团队
客户服务团队;
|
运营支持团队
技术支持团队
客户服务团队;
|
服务 接口
|
客户经理
24小时服务热线
服务报告与会议
|
24小时应急服务热线
应急响应服务
|
客户经理
24小时服务热线
|
服务 流程
|
事件管理、变更管理、问题管理
服务水平管理
|
应急管理
|
事件管理
问题管理
变更管理
|
运维管理制度
管理制度架构
依据ISO27001、ISO9001、ISO20000等国际和行业标准以及最佳实践的要求,建立一套制度化、流程化、标准化的数据中心运营管理体系,用以规范数据中心的日常工作,并持续稳定运行,该管理体系通过了专业认证并在长期的实施运行中不断的持续完善,其框架如下图所示:
内容说明
|
|
管理制度总纲
|
是一个纲领性文件,主要明确和描述备份中心的职责、工作目标、主要原则和工作内容,并对岗位设置和岗位职责和主要的管理原则进行界定。
|
岗位职责描述
|
针对数据中心的工作特点,对所需完成的各类工作确定岗位,并对各岗位的职责、工作内容、工作规范和管理制度进行明确和描述。
|
工作规程和管理规定
|
对整个数据中心范围的工作内容和有关的管理规定和工作规范和流程进行说明和明确,如安全管理规定、系统变更管理规定、生产故障处理和管理规定、机房进入管理规定等各方面的管理规定和制度。
|
操作手册
|
对具体的工作过程和操作命令序列,如能建立技术说明和操作手册均应尽可能建立,特别对日常经常需要进行的操作和在紧急状态下的操作过程均应建立操作手册,以确保有关操作和过程正确无误和稳定可靠。
|
日志记录
|
对日常巡检监控、设备系统的操作维护、人员设备的进出等建立日志记录表格,进行提醒、记录和检查,每天的日志记录表格需要操作人员、操作领班、值班经理和有关人员进行记录、检查和复核,确保每天的工作有序的进行和可追踪。
|
月报/统计报表
|
对各项工作需要有一定形式的月报等统计表格,如每月基础环境运行、设备系统更新维护情况、系统故障统计、通讯线路和流量统计、系统验证等多项内容,对各项情况有及时的分析和汇总,并适当建立与前期的对比表格。
|
年度统计报表
|
对各项工作需要有一定形式的年报等统计表格,如年度基础环境运行、设备系统更新维护情况、系统故障统计、通讯线路和流量统计、系统验证等多项内容,对各项情况有及时的分析和汇总,为业主方提供评估和决策的依据。
|
灾备中心的运维管理制度
灾难备份系统日常运营管理的好坏,对项目的成功与否有着致关重要的影响。灾难备份系统中的设备平时处于备援状态,当灾难发生时,为保证其能接替生产中心的运行,需要灾难备份系统具有非常高的可用性和可靠性;不仅如此,当数据中心面向灾难备份系统的IT运行环境、业务处理流程、操作规程等发生变化时,要求在灾备中心的灾难备份系统上及时响应并进行同步变更和处理;要做好以上各方面工作,必须在生产中心和灾备中心之间建立良好的互动机制。因此,建立一套与之相适应的运营管理制度,对于整个灾难备份项目而言是必不可少的关键工作。
以基于ITIL的完善的内部管理制度为基础,结合客户实际情况和灾备项目需求,将建立的与之相对应的服务管理接口制度包括以下内容:
内容
|
说明
|
日常操作运行管理
|
建立灾难备份系统的日常操作规程,包括:
ü 灾难备份系统日常监控操作流程
ü 灾难备份系统日常操作手册
ü 日常维护例行工作流程
ü 运行记录及工作报表
|
事件管理
|
建立灾难备份系统的问题管理流程,包括:
ü 事件的受理和记录流程
ü 事件定级及知会流程
ü 事件追踪及升级流程
ü 事件处理结果反馈流程
ü 事件的通知策略
ü 与变更、问题管理的接口管理
|
变更管理
|
建立灾难备份系统的变更管理流程,包括:
ü 灾难备份系统基准文档维护流程
ü 信息系统的变更知会流程
ü 信息系统变更评估确认及处理流程
ü 业务连续性计划变更维护流程
ü 与事件、问题的接口管理
|
问题管理
|
建立灾难备份系统的问题管理流程,包括:
ü 问题的受理和记录流程
ü 问题定级及知会流程
ü 问题的处理流程
ü 问题处理结果反馈流程
ü 与事件、变更的接口管理
|
应急响应及恢复管理
|
建立灾难备份系统的应急响应管理流程,包括:
ü 紧急响应流程
ü 灾难恢复IT及工作环境检查清单
|
BCP维护管理
|
建立BCP维护管理流程,包括:
ü IT基准维护管理流程
ü 子系统验证管理流程
ü 灾难恢复预案的分发、保存及版本及更新管理办法
|
安全管理
|
建立灾难备份系统安全管理规程,包括:
ü 安全管理架构
ü 备份中心物理安全管理制度
ü 安全保密制度
ü 网络安全管理流程
ü 备份系统分级授权机制
ü 磁介质管理制度
|

