大数跨境
0
0

围绕高可用目标开展云技术运营工作的思路与分析

围绕高可用目标开展云技术运营工作的思路与分析 Amanda跨境运营
2025-11-06
7

作者

中国银联技术部助理总工程师 徐静雯


伴随云计算技术的蓬勃发展与广泛应用,云的应用范围日益广泛,已成为支撑各行各业数字化转型的核心基础设施。在金融行业,云平台的高可用性直接关系到业务连续性与用户体验,这也使得其技术运营工作愈发重要。云本质上虽然是一个信息系统,其构成具有多层次性(IaaS、PaaS、SaaS),但它除了技术属性,还存在计量与计费要求,也具有业务属性,这提示我们不能简单地把云当成信息系统进行运营管理,也不能仅从SaaS应用层的整体视角来看待所有管理活动。笔者认为,云的技术运营工作主要包含具有独立管理要求的分类分级、变更、事件、高可用和演练五个方面,本文将从这五个方面对其进行深入分析。


一、云技术运营管理的

分层体系


云的普适性架构可分为IaaS、PaaS和SaaS三个层级,各层级的技术特性和管理需求存在明显差异。IaaS层提供服务器、存储、网络等基础IT资源,但它实际上是资源服务集合,不能直接作为基础设施,要与机房、硬件设备的管理区分开来。PaaS层提供数据库、缓存、消息队列等通用技术组件服务,其高可用问题也需要重点关注,这是因为当这些技术组件服务发生问题时,其影响会向上层应用传导,引发级联故障。SaaS层是与业务功能应用密切挂钩的服务(如支付交易系统),其可用性通常可通过业务指标(如TPS、并发用户数)直接衡量,是高可用问题发生时最直接的表现与处理界面。


目前,对云技术的运营管理一般是从整体角度进行考虑的,由于SaaS层是直接对外提供服务,而IaaS、PaaS是它的支撑层,所以云技术运营管理工作都围绕对SaaS的管理来进行,并将之作为对云的运营管理。然而,IaaS、PaaS本身是复杂且各具特点的,基于对SaaS层的管理难以实现对云技术的有效运营管理。SaaS层上的功能应用更适合通过业务指标进行级别划分,如金融机构的支付交易系统、清算处理系统、接入处理系统等,这些系统的重要级别可以通过交易量、接入数、每秒交易处理笔数等进行量化定级,而IaaS、PaaS层则通过技术指标(如调用量、使用量等)进行度量。此外,IaaS、PaaS的故障、变更、演练等都会对云产生影响,这种影响可能无法即时从SaaS层感知,且不一定通过SaaS服务反映出来,但会积累技术债务与潜在风险。


因此,笔者认为必须建立一种分层与统一相结合的管理视角:在承认云整体性的同时,将IaaS、PaaS“拆分”出来,与SaaS进行差异化管理,构建包含机房及基础设施管理、PaaS及IaaS服务管理和业务功能应用管理的三层管理体系(如图1所示)。


图1 云技术运营三层管理体系


二、云技术运营管理的

核心管理框架


本文提出的管理方法的核心在于将IaaS层和PaaS层的管理从“资源”视角转变为“产品”视角,并在此基础上建立分类分级标准。


1.分类分级定义

云实际上由众多云服务产品有机组合而成。云技术运营的首要工作是梳理这些产品,并依据其技术关键性(如在架构中的位置、故障影响范围)和业务关键性(如支撑的核心应用范围、用量)对其进行分类与定级。我们可将云产品分为业务应用类和技术底座类。业务应用类即SaaS服务,可按照传统信息系统管理;技术底座类可细分为五大类,即IaaS服务产品、PaaS服务产品、安全服务产品、运营管理服务产品和公共底座服务产品。每一类中又可根据其关键性分为核心(全局性、用量高,如云服务器、容器引擎)、重点(用量中等、影响特定业务,如数据检索、消息队列等)和一般(用量低、影响有限)三个级别。通过对云产品的分类分级,云管理的对象从模糊的“云”具象为一个个有明确级别定义的“产品”,为后续所有管理活动提供精确的依据。


2.变更与事件管理

变更与事件管理是对分类分级思路的具体运用,既可为机构节约管理成本,也能防止管理疏漏,是云技术运营非常重要的内容。基于IaaS、PaaS产品分类分级管理理念,技术运营中涉及的变更和事件自然也就具备了客观的量化管理依据。就变更而言,其按照影响程度可分为小型、中型、重大三个级别。核心或重点产品的变更需要更高管理级别的审批和更谨慎的操作;一般产品仅需执行简易的小型变更流程。此举兼顾了安全与效率。就事件管理而言,除考虑传统因素外,还需引入故障产品的级别这一关键维度。例如,同一性质的故障,若发生在核心或重点产品上,其事件等级应自动提升,从而触发更高级别的应急响应和更严格的根因分析要求。


3.高可用与演练管理

灾备演练是传统系统运营管理的重要手段,一般情况下,“灾备”和“演练”紧密相关。但对于云而言,其技术运营的核心应聚焦于高可用,而非灾备演练,这是因为云作为特殊的信息系统,其运营有着特殊的要求,不太适用“灾备”管理思路,原因有三:首先,云平台架构庞大,建设一套完整的备用云费用较高,这与云计算集约化、弹性按需的资源利用本质相悖。其次,云上部署的SaaS应用并不都是在不同地域和不同可用区多副本备份的。最后,对于不太重要的应用,从节约资源的角度考虑,可能只在一个地域或一个可用区部署了一套,所以各地域和可用区上部署的应用均不相同,无法按地域或可用区维度实施灾备切换。从对业界同行的调研情况来看,目前尚未有成功实施云地域级整体切换演练的机构。


对于云而言,高可用的目标是保障其持续提供服务的能力,可通过可用性、恢复时间目标(RTO)和恢复点目标(RPO)等指标予以精确度量与定义,并通过数据备份、数据处理、网络和运维能力等技术设计方案来保障。在此框架下,“灾备”仅被视为保障高可用的一种方法,而不是高可用本身。然而,仅定义高可用和技术设计方案肯定是不够的,必须通过演练验证其有效性。鉴于云整体切换不具备可操作性,演练必须下沉到产品维度,将云拆解为具体的IaaS、PaaS等服务产品,并根据产品的分类分级制定不同的演练方案,从而系统化地验证和保障云的高可用。


三、实践探索


基于上述管理思路,笔者团队在实践过程中梳理定义了16个核心产品与29个重点产品,并将产品级别应用于各管理领域,形成了以下差异化管控策略。


针对高可用要求,实施分级指标管控:核心产品的高可用性指标比重点产品多定义一个量级,即重点产品的高可用性为99.9%,那么核心产品的高可用性至少应为99.99%,RTO和RPO按照对应要求设立;重要数据应保持多可用区和多地域备份,网络带宽应满足数据备份需求。


针对变更管理,建立变更风险联动机制。笔者团队将变更按影响划分为小型、中等、重大三个级别,再基于产品的级别规定了每类产品的最高变更级别(如核心产品最高可触发重大变更,重点产品最高只能触发中等变更,一般产品的所有变更都只为小型变更)。此举在保证安全稳定的前提下,减少了审批流程,提高了运营效率。


针对事件管理,引入产品级别系数。笔者团队设置了特别重大、重大、较大、一般、普通和微小六个事件级别,并规定在故障场景与持续时间相同的情况下,核心产品的事件级别都将比重点产品高一个级别,以支持更快速地恢复核心产品的高可用要求。


针对演练管理,执行差异化演练策略。核心产品的演练频率应高于重点产品(如重点产品演练一次,那么核心产品应至少演练两次),并依据部署特征开展不同类型演练:对于在多地域和多可用区部署的产品,应安排跨地域或跨可用区的切换演练;对于具有全局属性但没有多地域部署的产品,模拟的故障演练会影响SaaS应用,无法直接在生产环境中演练,而是需在测试环境中演练。此外,除单个产品独立演练外,笔者团队还会组织开展多个核心重要产品的整体演练,以保证云整体的高可用。


实践表明,这套以产品拆解为基础、分级管理为核心的管理方法,有效保障了云的稳定高效运行,也验证了笔者团队对云管理模式的理解:既需要将IaaS、PaaS“拆分”至产品颗粒度进行精细管控,也需要兼顾云平台统一的服务整体性。通过该套管理方法,金融机构将能更好地保障云的高可用性,并支撑业务服务的安全运营,为其数字化转型保驾护航。



本文刊于《中国金融电脑》2025年第10期



特别提示

《中国金融电脑》杂志不收取作者版面费用,不会以所谓的“本刊代理/编辑部”或“发表定金”“手续费”等名义收取费用。购刊收款账户为对公账户,请勿对任何个人账户汇款。另,本刊开具发票不收取任何额外费用。如有异常,请作者立即与本刊编辑部查证核实,以免给自身造成风险或损失。


本刊编辑部联系方式:

010-51915111-816

投稿邮箱:

fcc@fcc.com.cn

市场合作:

010-51915111-813

010-51915111-812

010-51915111-826


【声明】内容源于网络
0
0
Amanda跨境运营
跨境分享集 | 每天一点跨境见解
内容 42460
粉丝 3
Amanda跨境运营 跨境分享集 | 每天一点跨境见解
总阅读227.7k
粉丝3
内容42.5k