2019年美国亚马逊中国云服务突发大规模故障,官方称受施工方挖断光纤影响。
AWS官方声明中称,由于昨晚CN-NORTH-1地区的隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,进而引发所有可用区中新的实例无法启动的故障。目前维修团队已经找到了具体的断点所在,正在尽力恢复过程中。
受事故波及影响,三星服务器全线崩溃。用户登录三星部分服务器时,页面报错且无法显示正常状态。打开Bixy的时候只会显示LOGO然后就闪退,根本无法进入Bixby,三星商店则一直处于网络错误状态。有网友戏称“完蛋,差点以为三星不干了”。
这不是AWS第一次发生大规模故障。去年2月28号,AWS 旗下基础业务 S3 数据存储人工操作故障导致宕机,长达 4 个小时,造成直接损失数千万美元,间接损失数亿;3月16号, Azure出现全球性故障,全球28个节点26个出现故障,受到影响。多家SaaS 服务商因此无法提供服务。作者认为这事还挺严重的,大规模故障影响了用户体验,会损失不少经济财产
2018年美国VPS 服务商 Kuriko Kuriko 4 月 24 日在其官网刊登香港 NAT 区故障声明,内容如下:由于机房技术的rm -rf /*,导致目前宿主机上所有数据丢失,我们正在尝试恢复原有数据以及获取备份资料,但恢复可能较小。目前该区域所有主机处于OFFLINE 中。
AWS 用户中断31小时仅恢复6周数据
网络剪报服务商 -Instapaper 遭受了超过31小时的服务中断,而且他们声明还需要一个星期的数据库恢复时间。Instapaper说:我们花费了数个小时和云服务商电话沟通,服务商申明我们的数据库遇到了系统限制,不能提供文章保存服务。我们唯一的选择是导出所有数据,导入新建的数据库。在经过了 31 个小时的业务中断之后,Instapaper 宣布经过努力,重建数据库实例使得服务重新上线,但是数据仅恢复到最近的 6 个星期,从2016-12-20之后的内容可以访问了。
全部的数据恢复要持续到2月17日,好吧,这是整整10天,用10天去恢复数据,使得用户能够访问自己所有的收藏,这个恢复时间也是相当的惊人!
作为互联网企业而言,选择一个优质的云服务器是十分重要的事情。而国内较出名的云服务器,分别是腾讯的腾讯云,阿里巴巴的阿里云以及百度的百度云。而在业内以99.9999999%的数据可靠性著称的腾讯云,却因为数据丢失而给意见创业公司造成了毁灭性的打击。
事件前因
2018年8月5日,创业公司“前沿数控技术”发布长文《腾讯云给一家创业公司带来的灾难》,控诉腾讯云云硬盘发生故障导致公司存储数据全部丢失的恶劣事迹。
据悉,“前沿数控技术”是一家从公众号起家的创业公司,并于2016年转型为一站式平台,开发了包括网站、H5、小程序在内的产品。“前沿数控”为了应对迅速增加的流量,进而选择了以“安全可靠”著称的腾讯云服务器,却没想到这是灾难的开始。
2018年7月20日晚8点左右,“前沿数控”发现公司的网站、小程序、H5通通打不开,云服务器也无法重启。“前沿数控”于晚上11点向腾讯云后台求助,得到“北京三区部分云硬盘出现故障,正在紧急恢复中”的回复。经过长达三天时间的反复追问,“前沿数控”等来的却是腾讯云“数据100%找不回来了”的回复。
03月02日 AWS宕机并波及Atlassian、Slack等在线服务商
影响评级:★★★
时间:2018.03.02
原因:暴风引发IDC停电
持续时间:当天
影响范围:Atlassian、Slack等在线服务商业务受到波及
警示:加强数据中心容灾级别,制定快速恢复的方案
06月13日上海市医保系统故障瘫痪近四小时
影响评级:★★★
时间:2018.6.13
原因:上海市医疗保险信息系统发生故障
持续时间:当天
影响范围:由于医保局服务器断线,病人无法使用医保卡挂号和结算。病人要么选择等待,要么就自费挂号并支付,现场各个窗口大排长龙。
警示:加强医院机房的容灾建设
09月15日顺丰程序员误删数据,导致服务中断
影响评级:★★★★
时间:2018.09.15
原因:运维工程师误删了生产数据库
持续时间:590 分钟(近十个小时)
影响范围:OMCS 运营监控管控系统发生故障
警示:尽快建立和完善备份以及容灾机制
12月26日苹果App Store出现大面积无法访问故障
影响评级:★★★★
时间:2018.12.26
原因:服务器宕机
持续时间:一小时
影响范围:大面积无法访问
警示:加强对突发宕机的容灾方案建设
系统业务中断和数据丢失,一直是IT界热议的话题。无论是天灾还是人祸,无论是独受其害还是波及他人,企业的业务中断和数据丢失对我们带来的损失都是不可估量的。在业务连续性和数据安全上,我们仍然面临很多的挑战。而在这些挑战面前,防范未然,才能让世界早有准备!所有信息化浪潮下的组织机构,建立专业、可靠的数据灾备和业务连续性体系不仅仅是规范企业自身的IT建设需求,更是用户在产品质量信得过以外,企业服务信得过方面的又一重要诉求。
为此,我们依旧建议:
建设专业的灾备系统,不要有侥幸心理
信息系统属于企业重要的信息基础设施,其安全问题涉及到核心数据资产,关乎企业生存与发展,涉及个人生存与生活,甚至触及国家和社会的稳定。《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中明确指出要:强化信息安全保障,包括强化重要信息系统和数据资源保护,加强数据资源在采集、存储、应用和开放等环节的安全保护,加强各类公共数据资源在公开共享等环节的安全评估与保护等。而对于信息安全、数据安全,灾备是最基础的技术需求,几乎所有的信息资产都需要灾备保护,以确保在任何意外故障情况下,信息系统的正常运转。
业务连续性管理应该是“老板工程”
信息系统环境中的风险点和威胁点往往不是单一的,也不是静态的,简单的安全产品堆砌已被证明不是有效的解决途径。信息系统安全是涉及到技术、人员、组织、环境、法律及管理等多方面因素的系统性问题,应该采用信息保障的原理、技术和方法,以全局的、动态的眼光来研究、设计、实施与维护信息系统安全工作。这需要企业机构的负责人高度的重视,以第一责任人的安全意识规划统筹业务连续性管理的工作
2017年因华为误操作导致广西80万移动用户数据丢失一事仍在发酵中,近日,有消息称,因为此次事故,华为已经被中国移动处以5亿罚款,同时中国移动已经展开全国范围的系统大排查,主要针对华为第三方代维隐患问题。
据了解,此次故障影响面非常大,涉及到钦州、北海、防城港、桂林、梧州、贺州等地近80万移动用户,属于重大通信事故。事故发生后,中国移动已经发布声明承认故障影响,而华为技术人员也已经展开紧急维修。
根据网上传出的广西移动内部报告单上陈述,移动认定华为公司存在违反既定方案,施工人员资质不足,验证环节缺失、上报流程不通畅等诸多问题。移动方面认为,此次华为工程师存在全方位的过失,将针对华为第三方代维隐患问题做全国系统排查。
GitLab.com的一个数据库发生了灾难性的事故。经过努力,最终丢失了6个小时(5:20pm UTC ~ 11:25pm UTC,Jan 31,2017 )的数据。“这起事件影响了数据库(包括问题和合并请求),但是没有影响git代码库(代码库和维基)。” 所以对用户来说多少有点安慰,因为并非所有数据

建议用户采用混合云模式,云服务+本地私有云数据中心集群模式+异地备份保证数据的安全性,业务的可持续性。异地备份强烈建议使用DSP备份一体机提供实时保护、瞬间可用、容灾备份、虚实兼顾、简单易用。高效远程传输、节约带宽、存储及投资成本。

