特别说明:
关于‘灾备’与‘容灾’的名词解释:灾备关注数据备份、容灾关注数据恢复,容灾注重灾难发生时的系统切换、更贴近业务连续性要求,两者是从不同视角、不同时期形成的两个相近概念,通过多年的进化,当前越来越多称呼容灾。从技术的视角,可以理解为灾备是容灾的基础、容灾是灾备的升级。国标、行标名称中,有的是灾备、有的是容灾,近些年发布规范中容灾的较多,特别是金融行业发布的规范基本上都称为容灾,其它行业解释这种现象为金融IT发展比较超前。金融机构可以这样理解两个概念,如果本机构传统架构应用较多,偏重于传统架构的科技管理模式,建议使用“灾备”,如果本机构绝大部分应用已转向云原生,偏重于云原生的科技管理模式(如运维架构已调整、已建设了全行级容器平台及PaaS平台、已推行了开发运维一体化等),建议使用“容灾”。但是,灾备的叫法已被大家熟称多年,我个人更习惯于灾备的叫法,所以在本文中不纠缠于两者的区别,所以本文绝大部分章节中以“灾备”来称谓。
问题引导:
基础架构与应用架构进行云原生转型后,灾备体系有哪些变化?新一代核心应用系统升级或重构时,灾备如何规划?越来越多的应用进行了云原生架构升级,原有灾备体系如何升级和优化?
正文:
在金融行业,信创架构升级于2019年正式拉开了帷幕。近几年,各金融机构从核心到外围,应用系统云原生架构升级工作正在如火如荼的进行中。依靠集群、多活解决信创单机性能不足、稳定性不足是业内通用作法,但设备选型、应用升级的顺序及方法各机构不尽相同,资金投入和技术力量储备差异也非常大。如何建设新型架构下的灾备体系、如何满足不同类型应用灾备建设需求、如何满足监管机构对灾备的要求,各金融机构急需要找到基于云原生架构的通用灾备体系模型、通用灾备建设路径、通用灾备运营框架。本文基于行业实践提炼总结,希望给予指导和参考。
国家对各行业IT灾备建设非常重视,早在2004年国务院信息办发布《重要信息系统灾难恢复指南》,明确了做好信息系统灾难恢复工作的基本思路。但是,要做好信息系统灾备工作还涉及非常多的细节问题,为了更加具备落地性,国务院信息办又于2006年发布了《信息系统灾难恢复的规划及实施》,内容非常细致,对各行业信息系统灾备建设工作具有了较强的指导性和落地操作性。
同时,随着互联网金融的发展,金融行业对高并发、高可用、高弹性的业务需求日益突出,云及云原生信息技术从探索到成熟,在金融行业内得到全面应用。
因本文重点关注云原生灾备,所以在了解灾备相关标准之前,先了解一下云及云原生技术发展,结合金融行业实践,梳理了云及云原生技术的发展路线,私有云从2013年上线到2015年推广,到2017年已有众多客户引入了大厂全家桶私有云,或者引入了多个厂商产品完成全栈私有云建设。以容器技术为代表的云原生,从2017年应用到2021年全面推广。到2023年,随便信创建设的深入推进,云原生架构及相关技术已达到国际领先水平。
金融行业的灾备规划和建设,首先需要遵循和参照国家及行业规范,符合相关规范要求。本文重点探讨云原生灾备,所以我们重点关注2010年云原生诞生后的相关标准与规范。包括国家层面和金融行业层面发布的、与灾备相关的标准规范。
相关标准规范包括如下:
国家层面
1、《GB/T30285-2013信息安全技术灾难恢复中心建设与运维管理规范》,该国标主是从灾备‘管理’视角,对灾备中心建设及运维全生命周期中的分析、规划、建设、交付、运维等各个环节所关注内容进行了阐述,对灾备管理内容(即灾备管理框架)总结的很全面,对我们构建灾备体系非常具有指导意义。另外,将灾备中心作为独立的数据中心视角出发,对灾备中心组织架构、职责、日常管理等内容描述很详细,非常适用于灾备数据中心独立配置运维团队、独立开展运维工作并独立构建灾备运维体系的金融机构。
2、《GB50174-2017 数据中心设计规范》,灾备建设无论是几地几中心模式,都涉及机房以及配套基础设施选择,该规范是对2008版本的重要升级,2017版更注重高可靠性、节能环保(如引入PUE)、智能化,响应了数据中心大型化、高密度化、绿色化的趋势,同时细化技术细节,增强可操作性,对实际工作指导性更强,尤其适用于云原生转型等新兴技术场景下的使用。
3、《GBT 36957-2018 信息安全技术 灾难恢复服务要求》,灾备恢复服务包括灾备演练、以及出现故障时的灾备切换,这项工作也是金融监管的重点要求,必须定期开展。灾难恢复服务工作是工作量大、难度大、投入资源多、耗费时间长的一项复杂性工作,需要作为独立项目来管控,并且许多金融机构开展这项工作需要第三方厂商来协助,共同完成项目。该国标的视角是将灾难恢复服务作为一项独立服务、或独立项目进行管理,非常适用于金融机构对灾难恢复服务项目管控时参照,如果将灾备恢复服务整体或部分外包给第三方厂商,同时可参考该国标相关内容要求开展相关工作。
4、《GBT 29765-2021 信息安全技术 数据备份与恢复产品技术要求》,该标准是GBT 29765-2013版本的升级,主要规定了数据备份与恢复产品安全功能要求、产品自身安全要求、产品安全保障要求与测试评价方法,对云架构、大数据等架构下数据备份的技术场景扩展,强化数据安全,强化对信创场景的支持,强化数据备份过程中的性能量化、保障RPO与RTO的现实,更贴合云原生技术转型下的备份需求。
5、《GBT 20988-2025网络安全技术 信息系统灾难恢复规范》,于2025年6月30日正式发布,并将于2026年1月1日起正式实施。该国标是为适应行业数字化深度转型,对2007版本的升级,规范中提出了信息系统灾难恢复“规划-建设-运维”生命周期、以及灾难恢复能力等级划分和测试评价方法,灾维恢复能力的六个等级描述及评测试方法非常详细,可参考性非常强,紧贴云原生架构转型需求,为金融机构构建新型灾备体系和实施路径给予切实指导。
行业层面
1、《JRT 0168-2020云计算技术金融应用规范 容灾》,该规范是在金融行业大范围完成私有云建设后发布,是针对金融行业云计算平台的容灾需求,将云平台容灾分为六级,要求金融行业达到三级及以上,六级要求RPO为0、RTO为3分钟,从应用架构视角满足双活级容灾要求,五级要求RPO为0、RTO为30分钟,从应用架构视角满足同城应用级容灾要求,另外针对每个容灾级别,对数据备份与处理、网络与运维能力等进行了规定,金融机构在云原生转型时可进行参照。
2、《JRT 0208-2021金融信息系统多活技术规范 参考架构》,双活、多活架构是应用系统云原生转型后的主要灾备模式,在金融行业灾备建设中,双活与多活架构也是未来的重要发展方向。本规范与时俱进,规定了金融信息系统多活技术的定义、多活信息系统视图、多活架构体系、多活业务流量分配及流量变更、多活关键指标等重要内容,为应用系统多活建设提供了参考依据。
多活架构体系
3、《JRT 0209-2021金融信息系统多活技术规范 应用策略》,本规范是在多活参考架构基础上,为保障应用多活建设落地性的重要规范,通过规定金融信息系统多活技术的应用场景、应用策略、演进路线,为金融领域信息系统的双活规划、设计、建设和维护提供了重要指导。其中多活应用场景中,将应用系统划分为流水型、账户型、计算型、查询型等四大类型,并对各类型应用的双活架构设计重点和难点进行了说明。
4、《JRT 0265-2023 金融数据中心能力建设指引》,相对国标GB50174-2017 数据中心设计规范,在行标中突出了管理体系,如何做好灾备管理是非常重要但往往比较容易被忽视,为节约成本,许多金融机构灾备管理岗位兼职现象比较严重,但对于计划建设灾备体系的金融机构,可遵循本规范中要求的那样,构建包括制度、流程、质量控制的PDCA闭环管理体系,灾备体系是保障灾备可用性、提高灾备运营质量的重要手段。
5、《JRT 0264-2024金融数据中心容灾建设指引》,该规范是人民银行继2008年发布《JRT 0044-2008银行业信息系统灾难恢复管理规范》之后,在云原生转型时期最新发布的容灾管理规范,2008版本关注信息系统,因为那时的应用还是传统架构。近几年在云原生转型后,基础资源池化,绝大部分金融机构都建设了全行级IaaS平台、CaaS平台、PaaS平台,所以在建设信息系统灾备时,必须同步建设各平台的灾备,平台灾备是保障信息系统灾备的重要基础,所以2024版本是以数据中心视角,从业务连续性出发,对灾备建设进行指引。本规范包括了金融数据中心容灾组织保障、容灾需求分析、容灾体系规划、容灾建设、容灾运维等方面的内容指引,同时也与时俱进的出现了云原生架构下的双活、多地多中心等相关概念和指引。

其它参考
以上在国家层面、行业层面,都选取了五个重量级的参考依据,除以上灾备相关标准规范外,面对云架构基础资源、云原生架构应用的灾备建设,还必须关注分布式架构、云计算技术相关标准,如:《GBT 32399-2015-信息技术 云计算 参考框架》、《JRT 0166-2020云计算技术金融应用规范 技术架构》等,以及第三方相关技术文档,如《分布式云原生白皮书2023》、《金融业上云指引》等,因为规划数据中心整体灾备、或者规划一套云原生架构应用灾备的策略,必须依赖和参考这些标准。
参考内容进一步整理和提炼
为更好的遵循和使用相关标准和规范,对国标和金融行标进一步整理和提炼,主要可参照内容如下:
敬请阅读《云原生灾备体系规划与建设实践(中篇)》......
关注本号,获取更多金融行业运维管理原创文章

