应用连续性规划与实践



这是运营商的IT架构案例;运营商系统特点:电信运营商拥有复杂的IT系统,庞大的在线业务数据,并且用户和业务量仍然在持续增长。
IT总体架构按照IaaS、PaaS、SaaS分层。
统一的资源池、通用技术能力、通用集成能力、共享业务能力等面向各域的的应用系统。结合统一开发管理、统一运营管理、统一安全管理,实现全网IT系统的统一管控。

两大核心系统BOSS、CRM支撑运营商核心业务。


支持全省6000w以上客户,双机房部署:分A和B两个机房部署。两个机房互为备份。
应用层:采用双机房应用双活模式,可以互为应急,当一个机房应用出现故障后,另一个机房可立即接管,确保业务平稳运行。应用采用集群化部署,集群内高可用。支持按渠道应用集群部署,渠道之间物理隔离,降低相互影响。
数据层:采用容灾模式,两个机房互为备份;核心数据双机房分区部署,提升数据访问效率。
采用高可用架构,MAA评估过程,客户考虑了IO隔离,网络冗余,良好的备份策略,定期恢复演练等八大维度。


通过过程中的努力我们在客户已经相对完善的MAA架构里边发现更多的风险。比如:容灾切换能力,数据库版本低,部署farsync,应用级容灾等建议。

建设业务连续性的三要素,流程/标准,管理/人员,技术堆栈。
流程/标准包含:
业务连续服务目标
业务连续服务内容
业务连续管理流程
业务连续管理规范
业务连续应急管理
技术堆栈:在基础设施,网络、应用、虚拟化、操作系统、数据库、主机、存储等不同层面选择最适合的业务连续性技术,并打通技术堆栈。


业务连续性的标准,通过合理的指标评估业务连续性。切换指标:接管速度,接管指标也有很多,通常还是RTO和RPO。

基于系统的重要级别分级进行保障级别对等分级,如有必要还需要更细节分级保障。

客户连续性保障管理平台,集监控,云管,日志平台等功能。

管理平台实现界面化,流程化,自动化。
模拟灾难,验证系统切换回切,是否达到预期。

选择合适的技术,打通技术栈,并有机集成。

容灾技术保障的目标就是RTO,数据同步技术保障目标就是RPO。

数据存储层:Oracle数据库:采用双机房分区部署;做数据容灾;
Mysql:采用master/slaver的部署模式;
缓存:分布式部署,提高业务访问效率;
Hadoop(HBASE、HDFS):内部多备份存储。








