

系统容灾体系及架构设计（续）

云容灾备份安全治理

2025-08-23

导读：各位读者下午好，上次我们聊到同城双机房 100 公里距离下如何保证 RPO、RTO 的问题，很多朋友在后台留

各位读者下午好，上次我们聊到同城双机房 100 公里距离下如何保证 RPO、RTO 的问题，很多朋友在后台留言，讨论得很热烈。小布也收到了不少实战经验分享，因此这次打算做一个续集，从实践中的细节挑战和进阶解决方案两个角度来继续探讨。

1、网络延时及吞吐问题

在第一篇里我们提到，数据库同步复制在跨 100 公里的距离上会面临 RTT（Round Trip Time）延迟问题。那这个延迟到底会带来多大影响？

我们做一个简单估算：

光纤传播速度大约是光速的 2/3；

直线距离 100 公里 → 实际光纤敷设往往超过 300 公里；

单向延时约 1.52 ms，往返就是 3ms左右。

如果数据库写入采用强同步+双 ACK 模式，每次写操作都需要额外等待这个 3~4 ms 的确认。对于高频交易系统（如支付秒级交易），这个延迟可能难以接受。

所以针对这个问题的解决思路有如下几个点：

1、分级同步策略：

核心账务表（如账户余额）采用强同步，确保数据不丢；
非关键表（如日志、流水明细，可重算数据）采用异步复制。
实际案例：某国有大行采用“账务表强同步 + 流水表异步”模式，保证性能和可靠性平衡。

2、压缩与批量ACK：

对于高并发场景，多条更新打包一次确认，减少RTT次数；
常见用于GoldenDB、OceanBase这类国产数据库的双活方案。

2、脑裂（Split-Brain）风险

在双机房架构中，最怕的就是两个机房同时认为自己是主库，结果双写导致数据不一致，后续合并极为复杂。

常见防护手段有：

第三方仲裁节点：在一个独立 Region 部署仲裁服务（Zookeeper、Etcd、Consul），通过投票机制决定主从角色。譬如某股份制银行使用 Zookeeper 仲裁 + 金仓数据库，确保只会有一个主库。

存储层共识协议：采用分布式数据库的内部机制（Raft/Paxos），自动避免出现两个 Leader。譬如OceanBase 的 Paxos 协议确保“无仲裁节点也能避免脑裂”。但是由于Paxos存在的问题在于他要把集群内的所有副本都同步一份数据，所以耗时计算公式是网络RTT * quorum确认数量，这个其实是影响写入延时的，但现在他们的产品升级后，是可以支持基于仲裁服务的。

应用层防御：即使数据库出现脑裂，应用层也需加写保护机制，比如在核心记账服务加分布式锁，避免重复扣款。

3、演练与切换的难点

理论上，大家都知道现在该怎么去容灾了，无非是两地三中心支持failover，但是真正落地常见会有几个问题：

1、切换剧本未标准化:

不同团队操作习惯不同，导致实际演练时出错。
建议：编制标准化 Runbook（运行手册），并通过自动化运维工具执行。

2、应用依赖配置复杂:

例如某些微服务的数据库连接串写死在配置里，切换时容易遗漏。
建议：引入配置中心（如 Nacos、Apollo），一键切换数据源。

3、切换后缺乏一致性校验:

很多银行演练时只验证系统是否起来，却没做账务对账，结果留下隐患。
建议：建立自动化对账校验工具，确保账务表和流水表一致。

4、灰度切流机制缺失:

一些机构切换时直接“全量切走”，风险极高。
建议：采用流量分批切换，先 5% 验证，再逐步扩大到 100%。
案例：某城商行在演练时，由于没有灰度切流，导致切换后交易堆积 3 小时，最终被监管要求重新整改。

4、不同数据库/厂商对比

方案/产品	同城能力	异地容灾	是否支持混合同步	脑裂防护机制
Oracle RAC+ADG	强同步可行，性能下降	异地ADG异步	是	基于投票磁盘仲裁
OceanBase	Paxos强同步	异步远程复制	是	共识协议避免脑裂
GoldenDB	强同步/异步可选	异步灾备	是	第三方仲裁+DB自身机制
TiDB	Raft强一致	CDC异步同步	是	Raft协议
KingbaseES	支持强同步	异步为主	部分支持	仲裁节点

好了，本篇我们从网络延迟、脑裂风险、演练落地几个角度，继续深入了同城双机房容灾的实践挑战，并结合了具体案例与厂商方案进行比较。可以看出，为了保证系统的高可用以及容灾，关键系统都会演进到“两地三中心”这种容灾架构，才能满足RPO、RTO，也满足监管的最高级别容灾要求。

如果各位读者对系统容灾感兴趣的话，下一篇小布会结合 云厂商的 DR 产品（如阿里云金融级容灾、腾讯金融云、华为云 GDR），聊聊“自建 VS 上云”的抉择，敬请期待。

【声明】内容源于网络

云容灾备份安全治理

分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理；窥视国内外备份软件与监控软件知识前沿水平线；越努力，越幸运！

内容 2171

粉丝 0

云容灾备份安全治理分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理；窥视国内外备份软件与监控软件知识前沿水平线；越努力，越幸运！

总阅读5.3k

粉丝0

内容2.2k