大数跨境
0
0

云原生灾备体系规划与建设实践(下篇)

云原生灾备体系规划与建设实践(下篇) 云容灾备份安全治理
2025-08-07
3
导读:敬请阅读《云原生灾备体系规划与建设实践(上篇)》......敬请阅读《云原生灾备体系规划与建设实践(中篇)》


敬请阅读云原生灾备体系规划与建设实践(上篇)......

敬请阅读云原生灾备体系规划与建设实践(中篇)......


1、灾备组织架构规划

      建设任何工程,一定是组织架构先行,在灾备建设中,需要考虑管理团队、技术团队、实施团队、运营团队,另外需要决策是否建设独立的灾备部门、在灾备中心是否配置独立的技术团队和运营团队。

      灾备组织组架构往往与应急组织架构有着紧密的关系,因为应急切换、应急演练都与灾备管理关系密切,人员可能存在复用情况,但岗位职责应是独立设置,所以需考虑好一人多岗的设置和管理。

2、平台&应用灾备方案规划

      平台&应用灾备方案是灾备规划中的重中之重,是后续完成灾备建设的基础,平台灾备方案是云原生灾备的特色产物,因为云原生架构下,基础资源已经池化,所以需要考虑IaaS平台、CaaS平台、PaaS平台的灾备,如果灾备类型包括了应用双活,则平台一定需要实现双活,否则应用双活就无法实现。

      应用灾备方案与应用是否上云、应用云上部署模式有着非常紧密的联系,应用上云模式一般包括虚拟化与容器技术路线、以及CaaS、IaaS+PaaS、IaaS等几大类云上部署模式,需要分别制定应用灾备方案。应用灾备方案需包括各个层次的数据同步方案、包括各个灾难场景发生时的切换方案。

      平台&应用灾备方案通常是以试点平台和试点应用形成,并按照灾备模式提炼成多个方案模板,在后续在灾备建设时,方案模板能面向所有平台和所有应用的灾备建设使用,平台和应用的灾备建设负责人根据灾备模式选择对应的方案模板,编写本平台或本应用具体的灾备实施方案,完成灾备建设。

3、数据同步方案规划

      数据同步包括多云间数据同步、异构云间数据同步、云上云下数据同步等,可使用的数据同步手段包括存储同步、操作系统脚本同步、数据库自身组件同步、第三方工具同步等。不同灾备实施方案根据所规划的灾备策略和灾备模式要求、结合实际情况选择最优数据同步方案。

4、应急预案规划

      应急预案是针对某套平台或某套应用所建设的,针对所列出的应急场景,编写相应的应急预案。

      应急预案需遵循业务连续性管理和应急管理的相关规定,应急预案需应对多维度协同管理,并根据管理要求定期更新应急预案,以保障预案的可用性。

5、灾备演练规划

      灾备演练主要工作包括演练计划、演练方案、演练报告,演练计划一般为年度制定,演练周期可以是月度、季度、年度,在金融行业,重要场景的灾备演练至少每年一次,从业务连续性管理角度,三年周期内所有场景演练必须全部覆盖。演练方案是针对每一次演练编写的具体实施方案。演练报告是每次演练后编写的总结报告。

      灾备演练规划工作,不仅要编写包括演练计划、演练方案、演练报告的模板,还需要包括对灾备演练进行定义,规划灾备演练的目标、灾备演练的组织架构、灾备演练的类型和演练原则、以及灾备演练的流程等相关内容,为灾备演练实施进行依据和保障。

6、运营管理规划

      灾备运营管理是灾备体系正常落地实施、以及灾备实施完成后正常运行的重要保障,需要建设独立的灾备运营管理体系,灾备运营管理体系是灾备体系的重要组成部分,灾备运营管理体系一般由灾备的运营部门所使用。

      灾备运营管理是云原生转型后的重点内容和特色内容,根据实践经验,灾备运营体系规划通常是按照ITSS倡导的PPTR四个维度开展,具体包括灾备运营组织架构、灾备运营制度及流程、灾备运营技术手册、灾备运营管理工具等四部分内容。灾备运营管理体系主要是按照ITIL 4中运维转向运营理论框架、提升运维价值、将灾备中心由成本中心转型利润中心等维度所规划。当然,如果机构数据中心自身仍处于运维阶段,未进行运营转型,只需要完成对灾备的基础运维工作,只需要完成日常管理,则梳理相关的灾备运维制度即可。


1、云原生灾备建设蓝图

      通过灾备策略以及灾备分层规划,逐步形成比较完善的、贯穿规划实施运营全生命周期的灾备建设蓝图,也有称作为灾备体系,我个人认为先有蓝图再有体系比较合适,蓝图服务于建设,灾备蓝图更侧重于列出灾备建设的所有任务或需要考虑的边界内容。而体系服务于管理者和执行者,执行者按照体系来落地实施,管理者按照体系过程管控,一个大的体系可以包括多个子管理体系,子管理体系往往集中在某个领域(或某个视角)的管理,如灾备管理体系是从管理视角上透视灾备、灾备运营体系是在灾备建设完成后从运营视角上透视灾备,当然也可以专门为灾备实施过程建立灾备实施管理体系,视角集中在灾备建设实施过程中的质量控制,保障灾备建设的进度和质量。

      也有些客户先行规划灾备建设蓝图,其实没有详细的灾备建设策略、没有详细的灾备分层规划,是无法形成完善的灾备建设蓝图,当然先规划一个简单的建设蓝图,再通过分层规划逐步细化,最终形成一个完善的灾备建设蓝图是完全可以的。

      所以,以上包括规划、实施、运营的灾备建设蓝图,是灾备建设全生命周期的整体规划结果,称作为“建设蓝图”更加合适。

2、云原生灾备体系形成

      有了灾备建设蓝图后,就可以转化成灾备体系,来指导灾备的规划、实施、运营。灾备体系贯穿灾备的整个生命周期,可指导一套基础平台或一套应用系统的灾备实施方案编写,按照灾备实施方案建设完成后,可根据体系进行灾备的日常运营管理,灾备运营是对灾备资源申请及变更、灾备上线运行、灾备切换演练等进行标准化、流程化、自动化管控。

      灾备体系需要一个完善的框架进行有效组织和管控。

      ISO系列(ISO20000、ISO27001、ISO22301)标准都有一个四层结构的标准框架,但ISO系列标准都是强调的流程,以流程贯穿整个管理体系,流程上级是管理制度,管理制度一般是管理办法,都是纲领性、原则性的规定,管理制度到流程直接落地实施困难性比较大。结合在金融行业的多年实践,建议在管理制度与管理流程间再增加一级“管理规范”,增强落地性。管理规范更多强调管理的细节,这种结构在多级管理的集团性质企业中,更加有利于分支机构依据管理办法制定具备一定特色、适应于本分支机构的管理规范。

      由此,建议灾备体系框架为五级文件,架构如下:

      结合金融行业实践,按照五层框架进行灾备体系规划,形成标准化、可落地、适用于日常管理的灾备体系,示例如下:

      不同金融机构可根据自身需求,进行补充和删减灾备体系中的文件,按照云原生灾备需求对原有灾备体系进行升级和优化。


      云原生灾备体系建成后,如何落地使用是关键。将灾备体系在金融机构中贯彻执行,指导和管控灾备的整体建设及运营,是难度非常大的工作。

      在云原生转型的关键期,构建云原生灾备体系非常重要,落地使用更加需要,基于信创软硬件的云原生架构下,保障灾备正常运行,保障发生故障时能够及时完成灾备切换,与灾备体系的落地执行、有效使用是分不开的。

1、落实灾备组织架构是首要任务

      灾备组织架构是保障灾备建设以及建设后正常运营的首要任务,灾备组织架构中应包括决策者、管理者、执行者,决策者需要确定和明确灾备建设策略中的所有问题,管理者需要确定和落实灾备体系中的管理制度、管理规范、管理流程,执行者需严格按照灾备体系做好灾备实施及运营工作,另外管理者还需要对灾备实施及运营工作定期开展审计,对执行者进行考核,及时发现灾备体系中存在的问题,并优化和完善灾备体系。

2、从不同视角透视灾备体系、保障体系可用性

      体系的落地使用,需要满足不同的使用者,需要保障从不同的使用者视角来透视灾备体系,每个视角的使用者能明确、快速找出与自身岗位相关的灾备体系文件,让灾备体系满足于所有相关使用者,让灾备体系在本金融机构中有效运行。

      对灾备体系的使用角色,主要包括管理者和执行者,管理者需要从管理视角透视和使用灾备体系,执行者包括基础平台和应用系统的灾备实施、以及灾备实施完成后对灾备的日常运营管理,所以执行者需要从实施视角或运营视角透视来使用灾备体系。

      例如,实施视角中的实施者需要使用灾备实施模板,按照实施模板编写灾备实施方案,按照实施方案完成灾备的上线运营,在上线前,运营视角中的运营者配合完成灾备资源的申请及灾备环境发布,上线后运营者会及时完成灾备运行状态的监控、及时处置灾备环境的告警和事件,在灾备演练中,运营者还会配合完成灾备的切换演练。

      每个视角的灾备体系使用者发现体系有问题或不满足需求,及时反馈给灾备体系负责岗位,及时完善和修订灾备体系,保障灾备体系的有效性和实用性。

3、有效使用模板是落地关键

      灾备体系中,非常重要的文件就是实施模板,模板是在灾备体系规划工作中完成的,灾备管理制度再细致,如果没有模板,灾备体系也非常难以落地。模板中非常重要的是灾备实施方案模板,不同灾备级别、不同灾备类型的应用,应该具有不同的灾备实施方案模板,如果应用上云技术路线有多种,每种不同技术路线下的部署方式不同,灾备实施方案中的数据同步技术等细节肯定也不同,同样需要对应的不同灾备实施方案模板。

      灾备实施模板中,需要明确灾备技术架构、灾备建设过程中的资源申请、实施步骤及演练步骤等内容。应用灾备实施负责人应能根据模板编写出可以完成应用灾备建设的、切实可行的实施方案,并保障应用灾备上线成功。

4、工具化、自动化是落地保障

      灾备运营需要配套的灾备管理工具,灾备资源的申请、灾备资源及系统环境的监控、灾备切换演练等工作都需要进行线上化和自动化,有了工具保障,所有管理规范和管理流程才能保障有效的落地执行。特别是在云原生架构下,双活灾备架构已成为必要模式,所以双中心的流量监控、切换等操作,更加需要工具来辅助。

      灾备管理工具可以集成在运维一体化平台中,也可以进行独立建设,可根据金融机构内IT整体规划、灾备中心是否独立管理、灾备建设投入等确定灾备工具建设模式和建设规模。


<全文>

关注本号,获取更多金融行业运维管理原创文章


【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读9.3k
粉丝0
内容2.2k