美文网首页
解析腾讯云硬盘故障,致用户「数据完全丢失」

解析腾讯云硬盘故障,致用户「数据完全丢失」

作者: 木石文若 | 来源:发表于2018-08-06 14:54 被阅读0次

    7月20日,腾讯云北京三区部分云硬盘IO异常,竟导致一家互联网创业公司“前沿数控技术”线上生产数据完全丢失!!!


    image

    事件已经发生半个月,由于确系腾讯云硬盘固件版本bug,导致文件系统元数据损坏,致使客户丢失大量数据,业务损失达千万,已然无法恢复,但腾讯承诺赔付金额仅13万。双方就赔偿金额难以达成一致,致使事件发酵,今天迅速刷屏网络。

    借助这个事件,我们来了解下什么是云盘的三副本备份机制?它安全么?日常工作中我们该如何做好数据备份?

    一、云盘的三副本备份机制

    以下引用阿里云官方文档:

    阿里云分布式文件系统为ECS提供稳定、高效、可靠的数据随机访问能力。

    Chunk

    您对云盘的读写最终都会被映射为对阿里云数据存储平台上的文件的读写。阿里云提供一个扁平的线性存储空间,在内部会对线性地址进行切片,一个分片称为一个Chunk。对于每一个Chunk,阿里云会复制出三个副本,并将这些副本按照一定的策略存放在集群中的不同节点上,保证您数据的可靠。


    image.png
    三份副本的原理

    在阿里云数据存储系统中,有三类角色,分别称为Master、Chunk Server和Client。您的一个写操作,经过层层转换,最终会交由Client来执行,执行过程简要说明如下:

    Client计算出这个写操作对应的Chunk。

    Client向Master查询该Chunk的三份副本的存放位置。

    Client根据Master返回的结果,向这3个Chunk Server发出写请求。

    如果三份都写成功,Client向您返回成功;反之,Client向您返回失败。

    Master的分布策略会综合考虑集群中所有Chunk Server的硬盘使用情况,在不同交换机机架下的分布情况、电源供电情况、机器负载情况,尽量保证一个Chunk的所有副本分布在不同机架下的不同Chunk Server上,有效防止由于一个Chunk Server或一个机架的故障导致的数据不可用。

    数据保护机制

    当有数据节点损坏,或者某个数据节点上的部分硬盘发生故障时,集群中部分Chunk的有效副本数就会小于3。一旦发生这种情况,Master就会发起复制机制,在Chunk Server之间复制数据,使集群中所有Chunk的有效副本数达到3份。

    image.png

    综上所述,对云盘上的数据而言,所有用户层面的操作都会同步到底层三份副本上,无论是新增、修改还是删除数据。这种模式,能够保障您数据的可靠性和一致性。

    所以云盘的三重备份机制还是非常安全的,只要不是三份数据副本所保存的三台存储服务器一起故障,数据都可以快速复制并恢复三副本状态。至于腾讯云固件bug,目前没看到更多的技术消息流出,按照以上阐述的三副本备份的原理,腾讯此时丢数据应该不止波及一家客户,毕竟存储服务器是各个客户共享的。

    二、数据可用性及数据丢失补偿

    各大云厂商的云服务器基本都声称99.n个9%的数据可靠性,但这不是100%,也就是说依然有极低概率的意外事故发生,仔细看用户协议:

    image.png

    而且一旦事故发生,云提供商将按照用户协议中规定的赔付比例进行赔付。这个补偿条款务必看清楚,必须是由于云提供商自身故障导致的,总赔偿费用不会超过云盘总使用费用!!也就是说你价值1000万的用户数据放上去丢失了,云盘总使用费用就花了50快,对不起,依照协议约定云提供商最多补偿你50块。其他额外补偿都属友情补偿,你懂得……

    image.png

    三、如何做好数据备份

    一层备份:云盘三副本备份机制,虽然安全性高,但不怕一万,就怕万一,从腾讯云该次事故来看,仅有这一层数据备份是远远不够的,其无法防范硬件故障、文件系统损坏的风险。

    二层备份:快照、镜像,不仅仅能防范磁盘损坏等物理故障造成的数据丢失风险,也能防范误操作,网络攻击等造成的数据破坏。

    三层备份:其他存储设备,将数据在其他云存储设备上再次备份。

    四层备份:本地物理备份,防范终极的云备份完全垮掉的情况。

    相关文章

      网友评论

          本文标题:解析腾讯云硬盘故障,致用户「数据完全丢失」

          本文链接:https://www.haomeiwen.com/subject/alowvftx.html