昨天,想找一朋友聊天,他没空理我。
因为他的VOS和EIX被攻击了。VOS装在阿里云上,阿里云检测到异常,直接关闭服务。
我们是做呼叫中心产品的,知道备份的重要性,所以对客户一直强调要做好安全备份,很多客户都被我们追的有些烦了。
朋友这次疏忽了,没有做数据备份;被攻击后,阿里云直接关闭服务,数据都无法导出,干着急,想方设法,各种途径忙活了大半天,最后还是只有等待攻击结束。
晚些的时候,我跟他开玩笑说,就今天备份安全这一件事,这直接损失都抵得上购买我们一套呼叫中心产品的,我们提供的技术服务,还是有价值的吧。
他说,以前没碰到,没意识到啊。
是啊。
因为在朋友这件事情几个月之前,还有另外一朋友也发生过类似事情,不幸的是,我们的备份建议一直没有得到那位朋友的重视,最终业务中断了几个月之久,客户损失了一大批。
有些事情,做了,不一定带来收益,但不做,却可能埋下致命的隐患。
容灾备份就是这样。最低限度,也需要一个灾难发生后恢复的手段。
9-11,双子星大楼都塌了一座,多少金融行业的数据库都毁于灾难,但没听说谁的数据丢失。
阿里云上出现故障,估计大家早有耳闻;前一阵子,云计算的鼻祖,亚马逊云,也出现了故障。
摘录媒体的报道片段:
2月28日上午(太平洋时间)AWS发生了服务宕机事件。
此次事故波及众多公司,外媒的统计名单中A-Z的26个字母全部占满,其中包括Adobe、Docker、GitHub、Slack、GE、Quora等知名公司。
S3于2006年发布,是 AWS 最早的诸多服务之一,官方曾称其具备99.999999999% 的持久性(durability)和 99.99% 的可用性(availability)。
美国东一服务区内最具人气的S3服务以及其它受影响AWS服务可能给Amazon带来高达10%的月度营收影响。根据粗略估算,这一服务水平协议违约可能造成数百万乃至数千万美元的损失。
为什么Netflix 重度使用 AWS,却在历次 AWS 的宕机中毫发无损?其实Netflix之前也深深地被云的「不稳定性」刺痛过,而如今他们的 Chaos Monkey(之后发展为 simian army)服务,会随时随地模拟各种宕机情况,扰乱生产环境。
大家数数,亚马逊官方宣称的可靠性后面有几个9?即便如此,该挂的时候,依然不含糊。
常在河边走,哪有不湿鞋?
任何一个机制的产生,都是血与泪的教训。
N多NB的大公司,在亚马逊的故障中,一样受损,不在技术,而在意识。上面的新闻中,单独截取Netflix的片段,必须赞一个!向其致敬。
回到我们这一行的运营者,是否真的需要这么高的可靠性?
曾经写过一篇《通信系统可靠性真的需要做到99.999%?》,已经回答过这个问题,这里就不在赘述了。
等我有钱了,要向Netflix学习。买空调,买2台,一台坏了,马上启用另一台,或者2台同时用,负荷分担,
经费有限的情况下,也要意识到,对于核心数据,必须建立时不时备份,异地备份,快速恢复的机制。
做运营的,该花的,不能省。


