灾备运维层设计
灾备运维层设计依据政务云灾备现状与需求分析重要因素的制约影响而定的。灾备设计需求分析是从政务云灾备需求、政务云灾备架构需求和同城数据级与应用级灾备需求等方面体现而定的。
整体思路思考点:
政务云灾备服务平台将实现对各委办局及区县政府信息系统的同城应用级灾备、同城数据级灾备和异地数据级灾备三项职能,因此政务云灾备资源中心将围绕资源、技术、管理和灾备四个要素进行设计,其中:
资源要素分为计算资源、存储资源、网络资源;
技术要素包括虚拟化化技术、计量技术、监控技术、调度技术和安全保障技术;
管理要素分为展现服务层、运维管理层和采集控制层三个层面;
灾备要素分为数据备份与恢复、系统切换与回切、灾备系统日常运维管理,以及灾备专业服务。
总体来说,灾备运维层设计包括为:物理层运维设计、资源层运维设计和运维接口设计组成,具体如下分层细说:
物理层运维设计
对云灾备资源中心的供配电系统进行定期巡检,包括设备的物理巡检、发电机的空载与带载测、不间断电源的放电测试,以及供配电厂商的例行维护;
定时检查云灾备资源中心机房的环境温湿度,确保机房始终处于恒温、恒湿、新风状态,监控空调系统运行情况,发现问题及时处理,定期组织厂商对空调和新风系统进行例行预维护;
应对云灾备资源中心的消防系统进行定期巡检,记录消防系统的运行情况,定期组织消防培训和演练,以及消防设备厂商的例行预维护;
应建立云灾备资源中心的集中监控系统,对机房的供配电、温湿度环境、漏水、空调、安全等重要设施进行集中监控,发现问题及时报警;
应建立完善有效的安全管理制度和流程,确保云灾备资源中心的机房安全、人员安全、物理安全、系统运行安全、数据安全。
资源层运维设计
建立统一的政务云管理平台实现对灾备资源池的监控和运行维护管理;
建立对云灾备资源中心物理设备的定期巡检制度,确保物理设备的稳定运行,发现问题及时处理;
建立对云灾备资源池的监控平台,实现对资源池的容量监控和性能监控,包括资源池的容量状况、资源的分配、使用状况、配置变更、健康属性、安全事件等,发现问题能及时告警;
对资源池的服务管理,包括资源调度、自动化部署、统一分配和回收、性能优化、系统升级、脆弱点改进、事件驱动响应和服务请求响应等;
对资源池各类资源的常规操作进行日志记录,并对日志进行备份、分析,实现对资源池的行为管理和操作审计;
对资源池的各类资源进行分区和分级管理,并针对云资源用户及云资源管理员建立不同的用户界面,以展现不同角色的服务、职责及权限,实现面向多租户的自服务;
实现对业务数据的备份、恢复、镜像、复制等功能,确保资源池内的业务数据的安全性;
建立针对不同租户的身份认证和访问权限管理机制,并宜建立权限与身份绑定的机制,使用户能通过统一的门户登录对其限定的资源进行合规性操作;
通过统一的下载与补丁管理平台对资源池内各虚拟机的软件版本进行升级和补丁。
运维接口设计
云灾备管理平台与政务云管理平台的接口设计
政务云管理平台提供给云灾备管理平台的管理接口
灾备演练前的资源准备(虚拟机、存储空间);
数据一致性比所需的克隆和镜像导致的资源调用;
灾备演练切换后的资源释放。
政务云管理平台提供给云灾备管理平台的监控接口
生产端和灾备端资源池的利用率;
生产端和灾备端处理资源的性能及状态;
链路监控接口。
软硬件资源关联关系
应用和资源的对应关系;
资源池环境检查;
灾备切换演练时应用资源的调用。
ITSM运维工具
Web控制台:用户可以以Web、App移动端形式远程登录虚机资源;
定期巡检:通过政务灾备云管理平台定期对资源池的各种资源进行自动巡检并生成巡检报告;
系统补丁与升级:当系统有更新版本时,可以通过政务灾备云管理平台实现系统软件批量升级;
脚本管理:对运维工作中常用的脚本工具进行管理,提高复用性。
云灾备管理平台与ITSM运维工具接口
服务台:为云灾备管理平台的运维人员与各委办局用户之间提供统一入口,集中受理各委办局用户的服务请求;
配置管理:
建立系统资源配置管理信息库(CMDB),并为其他运维流程提供必要的运维配置信息,包括:
确定配置管理的目标、角色、职责以及配置管理的范围;
建立并维护配置数据库;
配置项定义和标识;
配置数据库的管理和控制;
配置审核和回顾;
生成配置管理报告。
事件管理:
对事件进行分类、压缩、过滤、关联,并以工单的形式按照预定的事件处理流程在各部门间流转,以督促事件相关责任部门或责任人进行及时处理。主要包括事件的分派、转派、催办、升级、完成及关闭等流程过程,事件的满意度调查机制,以及和其他流程之间的关联关系,规范故障处理流程,包括:
建立事件管理流程,规定所有事件的记录、优先排序、业务影响;
将事件的定级与SLA进行绑定,同时定期开展事件梳理;
记录事件处理的全过程;
报告事件或服务请求的进展情况。
变更管理:
相应各类资源的变更请求,通过政务云灾备管理平台与政务云管平台的接口,可实现变更申请、实施、审核的自动化。变更管理功能包括:
确保所有对灾备系统的变更都遵循标准的方法、程序和规则进行;
确保所有对灾备系统的变更都能快捷有效地实施;
减少或避免与变更相关的事故对灾备系统运行的影响;
确保所有对灾备系统的变更都有明确、完整的记录可追踪;
确保所有的变更都有严格审核机制和恢复方案;
通过对变更的评估管理,采取相应的控制措施控制变更的风险。
发布管理:
负责对软件和硬件进行计划、设计、构建、配置和测试,以便为实际运行环境提供一系列的发布组件。通过和DevOps的结合,通过调度引擎,提升发布效率。
问题管理:
制定切实可靠和行之有效的问题管理服务措施,提前发现和消除问题发生隐患,及时发现问题和有效控制问题影响范围,迅速解决问题并确定问题发生原因,以防止同类问题的再次发生,保证云灾备资源中心的平稳运行。
知识管理:
实现知识共享,记录并保存故障处理信息,形成故障处理的专家知识库,以便在运维过程中快速地寻找到解决方案。
基准管理:
建立生产和灾备资源中心的IT基准,并定期提供IT系统基准核对服务,以生产和灾备系统基准环境的一致性和完整性。
容量管理:
建立初始容量预估值,依据资源的使用情况进行容量的跟踪与评估,建立容量管理模型,实现容量的优化管理。
服务水平管理:
依据与各委办局签订的服务水平协议,量化服务水平目标,并对服务过程中的服务水平达成情况进行确认,定期提交服务水平报告,并对服务水平进行审核。

