大数跨境
0
0

高可用性的艺术:异地多活的创意玩法~

高可用性的艺术:异地多活的创意玩法~ 极云Cloud
2024-10-22
1
导读:听起来貌似很抽象!

点击蓝字,关注我们


前段时间,机房电路短路导致户政业务的服务器瘫痪,四川全省户籍和身份证业务暂停办理。


毕竟故障影响波及了四川全省 ,引发四川人民的关注。


可故障多个小时后才恢复,提醒大家保障关键业务系统的高可用性是一个不可忽视的问题!



什么是高可用嘞?


现如今,我们开发一个软件系统,对其要求是越来越高...我们知道,一个好的软件架构应该遵循以下 3 个原则:



高性能——系统拥有更大流量的处理能力,更低的响应延迟。例如 1 秒可处理 10W 并发请求,接口响应时间 5 ms ~



易扩展——系统在迭代新功能时,能以最小的代价去扩展;在遇到流量压力时,可不改动代码,去扩容系统。


而「高可用」这个概念?看起来貌似很抽象!


通常用 2 个指标来衡量:平均故障间隔、故障恢复时间


平均故障间隔 MTBF:表示两次故障的间隔时间,也就是系统「正常运行」的平均时间,这个时间越长,说明系统稳定性越高


故障恢复时间 MTTR:表示系统发生故障后「恢复的时间」,这个值越小,故障对用户的影响越小


而可用性与这两者的关系:



这个公式得出的结果是一个「比例」,通常我们会用「N 个 9」来描述一个系统的可用性。


从这张图可以看到,要想达到 4 个 9 以上的可用性,平均每天故障时间必须控制在 10 秒以内。



也就是说,只有故障的时间「越短」,整个系统的可用性才会越高,每提升 1 个 9,都会对系统提出更高的要求。


我们都知道,系统发生故障其实是不可避免的,尤其是规模越大的系统,发生问题的概率也越大,比如:


——硬件故障:CPU、内存、磁盘、网卡、交换机、路由器

——软件问题:代码 Bug、版本迭代

——不可抗力:地震、水灾、火灾、战争


这些风险随时都有可能发生。所以,在面对故障时,我们的系统能否以「最快」的速度恢复,就成为了可用性的关键。


可如何做到快速恢复呢?


多机房异地多活架构就成为应对系统故障的有效解决方案。


涉及到知识点盲区了?


多机房异地多活架构指的是在不同的地理位置部署多个数据中心,这些数据中心能够同时处理业务请求,并保持数据的实时同步。



一旦某个机房因故障或灾害中断服务,业务流量可以自动切换到其他机房,确保服务不中断,提升系统的容错能力和稳定性。


业务流量的动态调度与智能分配确保了其他机房能迅速接手,减少停机时间和用户影响,不至于造成全省范围内的服务中断。



异地多活强调各个机房的业务能力是平等的,多个机房同时承担流量,可以有效避免当单一机房故障时,其他机房无法快速接管业务的风险。




除了服务器托管租用,极云还提供代运维服务,提供定制化的运维方案,根据客户的需求和设备的特点进行精细化管理哦~



互联网基础服务

当然选极云!


扫码即可为您提供

定制化解决方案!


关于我们


极云科技作为一家位于中国西南地区的高新技术企业,专注于为各行各业提供全面的信息技术解决方案。公司凭借深厚的技术积累和创新能力,已成为IDC、云计算及IT信息化服务领域的领先供应商。业务涵盖IDC(互联网数据中心)服务、云计算服务、IT信息化、AI算力租赁平台(智算云)。


极云科技秉承“守信、创新、协作、共赢”的企业精神,致力于成为客户最值得信赖的互联网基础服务提供商。

【声明】内容源于网络
0
0
极云Cloud
极云科技是以新一代智能算力为核心竞争力的AIDC服务商,聚焦智算中心托管与智算云两大核心业务,致力于构建覆盖AI算力基础设施、分布式云平台、行业解决方案的全栈服务体系。咨询电话:400-028-0032
内容 678
粉丝 0
极云Cloud 极云科技是以新一代智能算力为核心竞争力的AIDC服务商,聚焦智算中心托管与智算云两大核心业务,致力于构建覆盖AI算力基础设施、分布式云平台、行业解决方案的全栈服务体系。咨询电话:400-028-0032
总阅读1.4k
粉丝0
内容678