阿里的异地多活经验学习笔记

流量是可以随时切换的

如果恢复时间能控制得非常好,可能整个故障控制力就非常强。

用户通过代理来访问数据中心,代理如果检测到数据中心出现问题,它会自动把流量导入到另一个数据中心。

衡量系统可用性的指标

  • 服务平均无故障时间MTBF
  • 服务平均恢复时间MTTR
  • 可用性=(MTBF/(MTBF+MTTR))*100%

单实例

无状态

有状态

自动回复

集群层面

自我保护:降级、限流

快速变更:伸缩、变更

制作一个小页面,表示当前这台服务器上的服务是否有效

机房和地域层面

切库、引流

跨地域容灾切换

全局服务

dns故障

骨干网故障

灾难恢复标准

国际标准 SHARE78

国家标准 《信息系统灾难恢复规范》GB/T 20988 - 2007

img img