阿里云大规模故障，宕机损失如何避免

作者: 燃燃燃燃燃 | 来源:发表于2019-03-05 11:44 被阅读0次

阿里云大规模故障，宕机损失如何避免
腾讯云后阿里云再出事故，企业上云如何避免云计算事故造成损失?
阿里云大规模宕机故障：服务器等出现IO HANG 处理将赔偿
阿里云故障受用户质疑，腾讯云们的机会来了!
阿里云大规模宕机，怎么赔偿有争议
阿里云服务器这次崩溃，到底了赔多少钱？
阿里云出现大规模故障 “多云”部署或成趋势
无人值守时代，运维如何保障发布质量？
面向失败进行设计（一）
听：180628 互联网早报阿里云回应大规模故障

阿里云又宕机了。

约在3月2日23时55分左右，没有任何征兆，阿里云出现大规模宕机故障，位于华北地区的多家互联网公司遭受到了故障波及，多个APP和网站开始陷入卡顿并且账户登录异常，这场事故持续了三个小时左右。

3月3日凌晨，阿里云官方回应称“华北2地域可用区C部分ECS服务器（云服务器）等实例出现IO HANG（IO不响应），经紧急排查处理后逐步恢复。目前我们已经全面排查其它地域及可用区，未发现此类情况。”

根据阿里云描述，其在中国公共云市场占有率超过2至5名的总和，目前中国有40%的网站都在阿里云上运营。再加上宕机事件发生在了处于曝光率高峰的周末，经过各大平台的疯狂传播，导致这次事故备受关注。据专业人士分析，此次事故所在的华北2地域是阿里云最早开通服务的华北地域之一，而ECS服务器又是阿里云最为核心的IaaS（基础设施即服务）之一，影响程度相对来说是比较大的。

此外，阿里云还表示，针对此次故障，他们将根据SLA协议尽快赔偿。但是到目前为止，阿里云并未公开具体的赔偿细节。据阿里以往的经验，赔偿很有可能按照故障时间的100倍进行，而具体赔偿方案则要根据不同的付费模式来，总金额不会超过支付单台云服务器费用的额度。

这已经不是阿里云第一次宕机故障了，从2012年开始，阿里云几乎每年都会发生一次故障。

2012年

10月30日，阿里云部分服务器有30多分钟的时间无法正常访问，起因是电力故障。

2013年

1月18日，阿里云机房发生临时故障，部分用户服务器无法访问，20分钟修复；

1月23日，阿里云发生网络系统故障，OSS服务无法正常进行，故障持续长达6小时。

2014年

11月14日，由于市政施工导致运营商光纤受损，阿里云杭州可用区D网络故障，受此事件影响，当天不少P2P平台网站无法打开。

2015年

6月21日，一些使用阿里云香港数据中心的用户发现服务出了问题，服务中止12小时。此后，阿里云公告称由于运营商电力问题造成香港机房故障。

2015年

9月1日，有多位用户在微博爆出运行在阿里云上的系统命令及可执行文件被删除，严重影响线上服务及运维。9月3日，阿里云云盾负责人吴翰清撰文阐述事件真相“工程师粗心大意写错一行代码”。

2016年

7月6日，阿里云北京机房内网发生故障，导致大量互联网公司业务受到影响。阿里云工作人员表示，10点20分北京区开始出现故障， 11点20分恢复正常。

2018 年

6 月27 日，阿里云出现大规模访问异常，图片服务等产品无法正常使用，官网账号也无法登陆。次日凌晨发布官方说明，表示故障起因是上线一个新功能时，触发了一个Bug，导致部分产品访问链路不通。受影响范围包括阿里云官网控制台，以及面MQ，NAS，OSS等产品功能。此次故障定位在在S1级别，整个阿里集团的核心业务，以及依托阿里云的公司，很多都受了影响。

除2017年，阿里云每年都会出现故障，有时甚至非常严重，这令企业用户不得不担心。事实上，宕机事件频繁发生。仅2018年一年，全球主流云计算厂商曾发生不下十起宕机事故：腾讯云因硬盘故障，谷歌云自动化机制失效，微软Azure被高温和累积影响， AWS北弗吉尼亚地区数据中心出现硬件故障。

如何避免宕机事故造成重大损失？从业务安全性，稳定性的角度讲，企业在设计服务架构的时候，尽量要做到这几点：数据一定要备份、服务与数据分开、多平台提供服务。