细数近年来云服务故障，你还敢直接把业务直接上云吗？- 大数跨境

首页

细数近年来云服务故障，你还敢直接把业务直接上云吗？

北京鑫裕富华科技有限公司

2019-06-05

导读：2019年美国亚马逊中国云服务突发大规模故障，官方称受施工方挖断光纤影响。AWS官方声明中称，由于昨晚CN-

2019年美国亚马逊中国云服务突发大规模故障，官方称受施工方挖断光纤影响。

AWS官方声明中称，由于昨晚CN-NORTH-1地区的隔夜道路施工中有几处光缆被切断，导致可用区无法链接Internet，进而引发所有可用区中新的实例无法启动的故障。目前维修团队已经找到了具体的断点所在，正在尽力恢复过程中。

受事故波及影响，三星服务器全线崩溃。用户登录三星部分服务器时，页面报错且无法显示正常状态。打开Bixy的时候只会显示LOGO然后就闪退，根本无法进入Bixby，三星商店则一直处于网络错误状态。有网友戏称“完蛋，差点以为三星不干了”。

这不是AWS第一次发生大规模故障。去年2月28号，AWS 旗下基础业务 S3 数据存储人工操作故障导致宕机，长达 4 个小时，造成直接损失数千万美元，间接损失数亿；3月16号， Azure出现全球性故障，全球28个节点26个出现故障，受到影响。多家SaaS 服务商因此无法提供服务。作者认为这事还挺严重的，大规模故障影响了用户体验，会损失不少经济财产

2018年美国VPS 服务商 Kuriko Kuriko 4 月 24 日在其官网刊登香港 NAT 区故障声明，内容如下：由于机房技术的rm -rf /*，导致目前宿主机上所有数据丢失，我们正在尝试恢复原有数据以及获取备份资料，但恢复可能较小。目前该区域所有主机处于OFFLINE 中。

AWS 用户中断31小时仅恢复6周数据

网络剪报服务商 -Instapaper 遭受了超过31小时的服务中断，而且他们声明还需要一个星期的数据库恢复时间。Instapaper说：我们花费了数个小时和云服务商电话沟通，服务商申明我们的数据库遇到了系统限制，不能提供文章保存服务。我们唯一的选择是导出所有数据，导入新建的数据库。在经过了 31 个小时的业务中断之后，Instapaper 宣布经过努力，重建数据库实例使得服务重新上线，但是数据仅恢复到最近的 6 个星期，从2016-12-20之后的内容可以访问了。

全部的数据恢复要持续到2月17日，好吧，这是整整10天，用10天去恢复数据，使得用户能够访问自己所有的收藏，这个恢复时间也是相当的惊人！

作为互联网企业而言，选择一个优质的云服务器是十分重要的事情。而国内较出名的云服务器，分别是腾讯的腾讯云，阿里巴巴的阿里云以及百度的百度云。而在业内以99.9999999%的数据可靠性著称的腾讯云，却因为数据丢失而给意见创业公司造成了毁灭性的打击。

事件前因

2018年8月5日，创业公司“前沿数控技术”发布长文《腾讯云给一家创业公司带来的灾难》，控诉腾讯云云硬盘发生故障导致公司存储数据全部丢失的恶劣事迹。

据悉，“前沿数控技术”是一家从公众号起家的创业公司，并于2016年转型为一站式平台，开发了包括网站、H5、小程序在内的产品。“前沿数控”为了应对迅速增加的流量，进而选择了以“安全可靠”著称的腾讯云服务器，却没想到这是灾难的开始。

2018年7月20日晚8点左右，“前沿数控”发现公司的网站、小程序、H5通通打不开，云服务器也无法重启。“前沿数控”于晚上11点向腾讯云后台求助，得到“北京三区部分云硬盘出现故障，正在紧急恢复中”的回复。经过长达三天时间的反复追问，“前沿数控”等来的却是腾讯云“数据100%找不回来了”的回复。

03月02日 AWS宕机并波及Atlassian、Slack等在线服务商

影响评级：★★★

时间：2018.03.02

原因：暴风引发IDC停电

持续时间：当天

影响范围：Atlassian、Slack等在线服务商业务受到波及

警示：加强数据中心容灾级别，制定快速恢复的方案

06月13日上海市医保系统故障瘫痪近四小时

影响评级：★★★

时间：2018.6.13

原因：上海市医疗保险信息系统发生故障

持续时间：当天

影响范围：由于医保局服务器断线，病人无法使用医保卡挂号和结算。病人要么选择等待，要么就自费挂号并支付，现场各个窗口大排长龙。

警示：加强医院机房的容灾建设

09月15日顺丰程序员误删数据，导致服务中断

影响评级：★★★★

时间：2018.09.15

原因：运维工程师误删了生产数据库

持续时间：590 分钟（近十个小时）

影响范围：OMCS 运营监控管控系统发生故障

警示：尽快建立和完善备份以及容灾机制

12月26日苹果App Store出现大面积无法访问故障

影响评级：★★★★

时间：2018.12.26

原因：服务器宕机

持续时间：一小时

影响范围：大面积无法访问

警示：加强对突发宕机的容灾方案建设

系统业务中断和数据丢失，一直是IT界热议的话题。无论是天灾还是人祸，无论是独受其害还是波及他人，企业的业务中断和数据丢失对我们带来的损失都是不可估量的。在业务连续性和数据安全上，我们仍然面临很多的挑战。而在这些挑战面前，防范未然，才能让世界早有准备！所有信息化浪潮下的组织机构，建立专业、可靠的数据灾备和业务连续性体系不仅仅是规范企业自身的IT建设需求，更是用户在产品质量信得过以外，企业服务信得过方面的又一重要诉求。

为此，我们依旧建议：

建设专业的灾备系统，不要有侥幸心理

信息系统属于企业重要的信息基础设施，其安全问题涉及到核心数据资产，关乎企业生存与发展，涉及个人生存与生活，甚至触及国家和社会的稳定。《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中明确指出要：强化信息安全保障，包括强化重要信息系统和数据资源保护，加强数据资源在采集、存储、应用和开放等环节的安全保护，加强各类公共数据资源在公开共享等环节的安全评估与保护等。而对于信息安全、数据安全，灾备是最基础的技术需求，几乎所有的信息资产都需要灾备保护，以确保在任何意外故障情况下，信息系统的正常运转。

业务连续性管理应该是“老板工程”

信息系统环境中的风险点和威胁点往往不是单一的，也不是静态的，简单的安全产品堆砌已被证明不是有效的解决途径。信息系统安全是涉及到技术、人员、组织、环境、法律及管理等多方面因素的系统性问题，应该采用信息保障的原理、技术和方法，以全局的、动态的眼光来研究、设计、实施与维护信息系统安全工作。这需要企业机构的负责人高度的重视，以第一责任人的安全意识规划统筹业务连续性管理的工作

2017年因华为误操作导致广西80万移动用户数据丢失一事仍在发酵中，近日，有消息称，因为此次事故，华为已经被中国移动处以5亿罚款，同时中国移动已经展开全国范围的系统大排查，主要针对华为第三方代维隐患问题。

据了解，此次故障影响面非常大，涉及到钦州、北海、防城港、桂林、梧州、贺州等地近80万移动用户，属于重大通信事故。事故发生后，中国移动已经发布声明承认故障影响，而华为技术人员也已经展开紧急维修。

根据网上传出的广西移动内部报告单上陈述，移动认定华为公司存在违反既定方案，施工人员资质不足，验证环节缺失、上报流程不通畅等诸多问题。移动方面认为，此次华为工程师存在全方位的过失，将针对华为第三方代维隐患问题做全国系统排查。

GitLab.com的一个数据库发生了灾难性的事故。经过努力，最终丢失了6个小时（5:20pm UTC ～ 11:25pm UTC，Jan 31，2017 ）的数据。“这起事件影响了数据库（包括问题和合并请求），但是没有影响git代码库（代码库和维基）。” 所以对用户来说多少有点安慰，因为并非所有数据

建议用户采用混合云模式，云服务+本地私有云数据中心集群模式+异地备份保证数据的安全性，业务的可持续性。异地备份强烈建议使用DSP备份一体机提供实时保护、瞬间可用、容灾备份、虚实兼顾、简单易用。高效远程传输、节约带宽、存储及投资成本。

【声明】内容源于网络

北京鑫裕富华科技有限公司

IT系统集成，主要经营IT类相关软硬件

内容 2

粉丝 0

北京鑫裕富华科技有限公司 IT系统集成，主要经营IT类相关软硬件

总阅读0

粉丝0

内容2