案例分享-数据存储与灾难备份项目

项目起源介绍
数据存储和灾备服务项目是市信息化基础设施建设七大信息化重点项目之一,2007年开始规划,2008年正式启动,本项目通过统一采购专业第三方数据存储与灾备服务,以电子政务外网为载体逐步建设完成本地数据生产中心、同城应用灾备中心和异地数据灾备中心的两地三中心容灾模式,建立以市本级为中心同时可服务各周边区(市)县的立体政务信息系统容灾体系,为各级政府委办局、企事业单位提供关键业务系统统一存储、灾难恢复和业务连续性管理咨询等服务。截止2015年6月底实现为等19个委办局共计66余套重要政务信息系统提供近700TB存储以及210余台各种类型服务器主机的数据灾备服务。

本项目通过统一规划、统一建设、统一运维的方式构建数据存储与灾备服务平台,通过提供海量化的数据资源、个性化的解决方案、规范化的服务流程、集中化的监控管理、持续化的质量改进为市各委办局提供高可用的数据存储与灾备服务。
项目服务成果
存储容量管理
截止2015年6月底,共提供约700TB容量的存储服务,其中第一年度提供约33TB,到第二年度末增长至140TB,到第三年度末增长至约200TB,到第四年度末增长至约480TB容量,到第五年度末增长至约550TB容量,到第六年度末增长至约571TB容量,截止2015年6月底增长至约709T,呈现逐年增长态势。下表为按不同存储介质统计,对比每年度的增长情况。

备份平台及许可
截止2015年6月底,生产中心及灾备中心共部署了10套CDP数据复制系统统计:
所提供的CDP数据复制软件为飞康CDP,华为VIS系统,IBM SVC系统。
所提供的硬件,飞康CDP采用的是Dell主机和Dell MD1000存储柜,华为VIS系统采用的是华为存储设备,IBMSVC系统采用的是IBM San Volume Controller主机和V7000存储设备。
提供的批量数据备份服务备份系统。所提供的备份系统软件,灾备中心采用的是Veritas NetBackup备份软件和BakBone备份软件。社保局备份系统软件采用的是Veritas NetBackup。所提供的备份系统硬件,灾备中心Veritas NetBackup采用的是Dell服务器主机。社保局备份系统采用的是华为服务器主机。为各用户单位提供的批量数据备份服务的业务系统数及License如下图所示:


项目运维服务
为确保数据存储与灾备系统稳定可靠运行,采用规范化的流程管理服务,如事件流程管理服务,变更流程管理服务,服务请求流程管理服务,确保IT运维服务稳定、高效的持续不断运行。


事件管理服务
采用大型事件管理系统Remedy等综合管理平台的发布、接受、处理和关闭。第一时间把客户的故障问题发布到Remedy系统上,运维工程师无论身在何处都能及时接单处理故障问题。


截止2015年6月底,运维服务团队共处理事件1377例,如图所示:

事件原因的分类如下图所示:

由上表可以看出,造成事件原因的主要在于生产端、灾备端和网络、基础设施等。运维服务团队经过详细分析如下:
(一)生产端
生产端事件主要有这几种原因:生产端帐户被删,生产端未添加路由信息,硬件故障,生产端迁移,生产端host文件被清除和备份进程被删掉。
这些生产端设备因为是由各用户单位在管理,除设备本身的故障外,大多数原因是因为用户误操作,如删除进程、hosts文件等。这部分工作的改进需要运维服务团队与用户单位多沟通,慎重使用如安全卫士一类的软件,以免误操作。
(二)灾备端
灾备端事件主要有这几种原因:存储空间不足,存储告警,备份作业请求文件失败,虚拟磁带机“Down”和快照未按时生成。
而存储空间不足是灾备端事件的主因,通过这几年的运维服务,根据实际情况增加备份介质的容量,这个问题完全得到解决。在以后的运维服务工作中,将容量管理做的更好。
(三)网络
一般是临时性的电子政务网络不稳定及延迟的网络故障,在网络恢复后,备份系统即可正常恢复功能。
(四)基础设施
一般是机房空调温度过高造成硬件服务器等设备指示灯告警故障,在空调温度恢复正常后,即可恢复正常状态功能。
变更管理服务
在市政府数据存储与灾难备份项目中,从提供运维服务的那一天起,七年来持续不断的提供流程化的变更管理,减少或避免因为疏忽、缺少资源、准备不充分等缘故导致变更失败或产生其它的问题。灾难备份系统所受理的变更范围主要涵盖系统设备、系统、网络、运维服务要求和客户生产业务系统调整等方面。从2008年至2015年6月底,共处理变更107件,具体变更每年度统计详见下图所示:

服务请求管理服务
在市政府数据存储与灾难备份项目中,也持续不断的提供服务请求管理服务,为客户提供优质的IT服务。主要包括如下要点:
!信息请求。包括客户的咨询和建议,数据查询和状态查询等
!访问请求。包括人员进出,开通账号或权限等。
!标准服务请求。目前的标准服务主要指在不影响服务内容及服务质量的前提下的重启机器、插拔网线等。
从2008年至2015年6月底,为服务团队共处理服务请求256件,年度请求详见下图。

IT设备巡检服务
在市政府数据存储与灾难备份项目中,还提供优质的IT设备监控服务,监控对象包括存储设备、网络交换机、光纤交换机、主机、备份服务器等,7×24小时不间断检查设备运行状态。确保在第一时间或先于客户发现故障问题,及时排除故障,确保存储灾备设备正常健康运行。从2010年度起,由数据中心远程提供7*24小时远程巡检与监控服务,本地服务团队提供5*8小时日常运维服务。这七年来提供的巡检管理服务方式如下:
(一)本地巡检
运维服务团队提供5*8小时的本地巡检服务。每天共计三次,具体是在09:00,13:00和17:00时间段巡检灾备项目服务所有设备。
(二)远程巡检
异地数据中心运维团队提供7*24小时的远程巡检服务。利用数据中心至灾备中心的联通专线,每天共计六次。具体是在在09:00,13:00,17:00,21:00,01:00,05:00时间段远程巡检灾备项目所有设备。
(三)上门巡检
运维服务团队,对位于用户单位机房的设备,定期实行上门巡检服务。不同单位的IT设备,按照巡检技术手册,执行每周一次的上门巡检服务。
专业服务
在做好数据存储与灾备系统的基础服务的同时,为更加全面化、系统性地提升客户IT系统应对灾难的能力,提供包括应急预案开发、应急演练、数据恢复验证、培训服务、灾备咨询等业内成熟先进的专业服务。七年来,共提供数据恢复验证服务60次,应急演练49次,应急预案46次,培训服务18次,机房搬迁3次,灾备咨询3次。具体情况详见下图。


