深入理解稳定性与高可用性
Aliware
稳定性是数学或工程上的用语,判别一系统在有界的输入是否也产生有界的输出。若是,称系统为稳定;若否,则称系统为不稳定。
高可用性(英语:high availability,缩写为 HA),IT术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统与构成该系统的各个组件相比可以更长时间运行。
根据系统损害、无法使用的时间,以及由无法运作恢复到可运作状况的时间,与系统总运作时间的比较。
-
系统正常运作的时间,即系统处于稳定状态的时间。
-
系统损害、无法使用的时间,即系统处于非稳定状态的时间。
-
系统由无法运作恢复到可运作状况的时间,即系统由非稳定状态恢复到稳定状态的时间。
稳定性与高可用保障的核心思路
Aliware
-
功能:应用程序执行的功能出现错误,不符合预期。
-
容量:当系统接收的请求数量增加时,应用程序无法正常处理,出现异常或超时,导致服务失效。
-
安全:当系统接收到的没有授权的或者恶意攻击的请求时,应用程序出现异常甚至服务失效。
-
容错:对于用户错误的使用方式, 应用程序无法合适地处理。
-
人为故障:在开发软件的各个环节中思考不充分,或者执行时粗心导致的各类问题。
-
硬件故障:网络不通,硬盘空间不够,内存崩溃等。
-
软件故障:线程池异常,JVM异常,中间件或其他依赖的应用服务异常。
-
设计阶段
-
团队细分文档模板
-
高可用设计规范
-
编码阶段
-
代码规范
-
通用代码规范
-
工程结构规范
-
单测覆盖率
-
单测通过率 -
代码覆盖率
-
日志规范 -
安全漏洞修复规范
-
发布阶段
-
变更规范:三板斧
-
容量评估
-
机器容量 -
DB容量 -
缓存容量
-
压测摸底 -
限流方案 -
降级方案
-
日志规范 -
监控梳理
-
应用基础监控 -
网关监控 -
服务监控 -
业务监控 -
限流监控
-
告警规范 -
数据核对
-
日常预案
-
硬件异常预案 -
中间件异常预案 -
业务异常预案
-
大促预案 -
预案执行规范
总结
Aliware

