G行异地灾备信息系统运维管理实践
+
近期金融同业安全生产事件时有发生,金融监管和银行机构自身业务连续性管理对信息系统灾难备份能力提出更高要求,通过组织压力测试或真实承载业务切换演练等方式,“荷枪实弹”的检验同城或异地灾备信息系统建设和运维管理的有效性。
应用信息系统完整的生命周期管理有需求、设计、开发、测试、发布和运营等6个阶段。异地灾备信息系统作为生产信息系统的异地容灾备份,继承了生产系统的业务功能和技术特性。G行异地灾备中心系统日常运营管理工作主要集中在发布阶段和运营阶段。
G行异地灾备信息系统平时应用服务不启动,不提供对外服务,必须通过技术手段和管理方法来确保异地灾备信息系统的可用性和有效性。经过实践检验,保持异地灾备系统环境和配置与生产系统一致,是一种有效的技术管理手段。
根据笔者多年在G行异地灾备信息系统运维管理的经验,结合信息系统全生命周期的各个阶段,主要从异地灾备信息系统建设、运营管理过程中,针对异地灾备信息系统运维管理工作进行阐述。
异地灾备信息系统建设
01
1. 异地灾备信息系统建设阶段
1.1. 需求阶段:
信息系统的建设来源于业务需求。每年G行风险部门牵头全行业务部门进行重要业务分析和评估,形成业务连续性影响分析报告。异地灾备信息新建系统需求来源于报告中识别的支撑重要业务对应的信息系统。
1.2. 设计阶段:
G行异地灾备信息系统设计沿用生产信息系统的设计方案,与生产信息系统架构保持一致,采用相同技术产品,是搭建一套具备业务支撑能力异地灾备信息系统的有效方法。
1.3. 开发阶段:
G行异地灾备信息系统作为生产系统的容灾备份,原则上不涉及额外的代码开发任务,应用程序代码与生产系统保持一致。
1.4. 测试阶段:
G行异地灾备系统架构、产品和应用程序来源于生产系统,生产信息系统不仅经过系统功能测试、非功能测试、安全检测,还在长时间的对外服务中得到了有效性的检验。
1.5. 发布阶段:
G行异地灾备信息系统建设首先进行生产信息系统分析,参照系统架构和软、硬件产品组件,梳理异地灾备系统建设资源,然后开展异地灾备信息系统建设工作。G行异地灾备系统建设阶段主要有生产系统分析、建设资源申请、硬件环境搭建、应用软件部署和系统验证调试等5大个步骤。
2. 信息系统异地数据同步
数据安全是银行的生命线,异地灾备数据中心作为保护科技运营的最后一道防线,数据安全更是重中之重。
2.1. 传统架构下的存储复制
G行传统的异地数据容灾采用存储底层数据容灾架构、产品以及技术实现两地三中心的数据同步与复制。采用存储复制技术,依赖存储产品提供存储设备底层物理块同步复制。因为数据容灾架构与上层的应用层为松耦合关系,应用系统的设计不需要过多考虑数据两地同步复制的问题,应用系统更多关注在与业务功能相关的开发和设计上。
2.2. 数据库逻辑复制
随着应用系统上云改造,基于存储产品的底层数据同步方式已经不适用于云上的应用系统,G行云上系统主推自研EverDB数据库,采用数据库逻辑复制。
(1)EverDB分布式集群数据同步采用Bridge平台进行数据同步,平台自身保证分布式事务一致性及数据一致性,常规状态下,异地数据库设置不可写保证生产主库单写,异地接管业务流量期间,生产库不可写,异地库可写;
(2)Bridge平台数据同步过程中出现事务不一致时,Bridge平台会异常告警,当前EverDB分布式集群生产与异地同步正常;
(3)异地切换过程中,数据库静止后,稽核生产与异地灾备数据复制位置,确保生产和异地灾备数据一致后,解除异地灾备数据库限制,对外提供服务;
(4)信息系统数据一致性监控,每日会使用检测工具对生产与异地灾备数据库之间按行进行增量数据比对,切换当天会校验数据行数并抽样校验比对数据一致性。
3. 异地灾备系统容量配置要求
根据G行业务连续性管理要求,当区域性灾难发生时,G行异地灾备信息系统具备独立承担重要业务的能力。
3.1. 资源配置原则:
G行异地灾备系统具备承载重要生产业务TPS峰值的能力,异地灾备重要系统资源按支撑重要业务峰值交易量进行资源配置。
3.2. 资源配置补充说明:
为了确保异地灾备系统的可用性,针对异地灾备信息系统资源配置原则进行了补充说明:
(1)异地灾备重要系统至少按照单数据中心最少比例资源进行配置;
(2)因为信息系统APP与WEB或者接口服务器按照一定比例进行配置, WEB和接口非系统性能瓶颈,异地灾备系统计算资源以APP资源进行计 算。
(3)因为服务器CPU和内存按照固定比例进行配置,以CPU核数作为异地 灾备系统业务承载能力的测算重要参数;
(4)因为信创产品在G行投入使用的越来越广泛,异地资源测算时需要考 虑信创服务器芯片性能差异。
异地灾备信息系统运维管理
02
G行异地灾备信息系统日常运维管理工作目的是为了确保和验证异地灾备系统的可用性,通过一系列异地灾备系统与生产系统一致性管理来确保异 地灾备系统的可用性。
1、系统架构改造
当生产系统进行系统改造后,异地灾备信息系统同步进行改造,首先对生产系统进行架构分析,依照生产系统的改造方案,梳理本次异地灾备系统改造的所需的软硬件产品资源和检查异地灾备环境,整理异地灾备信息系统升级改造所需资源清单,然后进行资源申请、硬件环境搭建、应用软件部署、系统验证调试。
2、基础软件版本同步升级
当生产信息系统操作系统、中间件和数据库等基础软件进行版本升级后,异地灾备系统需同步进行软件版本升级,以确保异地灾备信息系统的可用。
3、异地灾备信息系统同步投产
G行生产中心定期进行信息系统应用程序投产,在当前的信息技术环境下,系统的投产需求来自安全性、功能定制、性能优化、数据分析、用户体验、跨平台适配和智能化等多方面要求。随着产品迭代已经在软件开发过程中的广泛运用,生产系统的应用投产频度越来越密集。G行生产系统完成投产后,50多套异地灾备信息系统快速完成跟投是个挑战。
3.1异地灾备信息应用投产标准化
G行生产系统投产步骤进行了标准化梳理,并且实现自动化投产。主要有新应用程序下载、原应用程序备份、应用服务停止、数据库操作(数据记录更新、表结构更新等等)、新应用程序发布、应用服务启动等投产步骤。结合异地灾备信息系统的实际运行情况,对异地灾备系统投产步骤进行标准化梳理。异地灾备系统平时无法启动,数据库存储的数据是通过存储异步复制到异地灾备中心,所以异地灾备系统投产步骤主要有新应用程序下载、原应用程序备份、新应用程序发布等。
3.2 异地灾备系统自动化平台工具
G行部署异地灾备系统自动化投产工具,将异地灾备系统与生产系统进行隔离,通过独立的异地灾备环境对异地灾备系统投产进行管理。因为异地灾备系统应用投产步骤标准化制定和自动化平台工具的部署,异地灾备同步投产效率得到大幅提高,提升了G行异地灾备中心业务连续性管理能力。
异地灾备系统有效性验证
03
异地灾备系统平时不对外服务,异地灾备系统的有效性需要通过一系列的系统验证活动进行确认。
1、异地灾备真实业务切换演练
G行每年由科技部门牵头联合业务部门、境内外分行,将信息系统切换至异地灾备中心运行,实现生产业务的异地全面接管。真实业务切换演练是异地灾备中心一次“真枪实弹”的考察,是对异地灾备中心最有效的检验。
2、异地灾备系统连通性验证
通过网络隔离,异地在封闭网络的环境下启动灾备信息系统进行技术验证。此验证主要目的是检查异地灾备信息系统的服务启停、平台工具有效性和系统间的连通性。
3、异地灾备单系统启停验证
异地灾备系统单系统启停验证是指异地灾备某个或者少量几个系统单独启动应用服务,进行系统状态检查,启停脚本验证,配置检查,数据一致性等验证工作。
4、异地灾备系统专项验证
异地灾备系统专项验证,是指异地在封闭的网络环境下,因为异地环境的差异和业务原因,导致无法对某个或者某几个异地灾备信息系统进行有效的检验,通过某种专项验证场景的设定,在最大程度地降低业务影响的前提下,模拟业务交易,进行异地灾备系统技术和业务案例验证,确保异地灾备系统的可用性。
未来展望
04
随着云计算、分布式等新技术在G行普遍运用,在G行科技战略的规划推进指引下,为解决传统集中部署扩展限制,满足未来业务高速发展和客户高并发、低延迟访问体验。G行数据中心灾备策略将从“两地三中心,大同城,小异地”向“两地多中心,均衡发展”转型,研究推进信息系统异地多活部署承担生产业务,异地信息系统将成为生产信息系统的一部分,全面纳入信息系统全生命周期的管理。
以科技赋能产业
以创新引领发展
未来,我来!
2012年加入G行信息科技部,一直从事信息系统异地灾备运维工作,组织各专业团队开展重要信息系统的异地灾备建设或重大系统升级改造,负责重要信息系统异地灾备版本更新和环境维护,组织开展异地灾备系统有效性验证和异地灾备真实业务切换演练,保障异地灾备系统可用性。
作者:代睿
作为一名练习时长8年的IT运维一线服务管理练习生,爱好唱跳RAP篮球。在深耕本职工作的同时争做一名积极向上的斜杠青年,努力为大家呈现精彩文章。
编辑:张岩



