概述
存储(Storage)是一个非常关键的抽象,用途广泛。
GFS 论文还提到了很多关于容错、备份和一致性的问题。
GFS 本身是 Google 内部一个很成功的实用系统,其关键点被很好的组织到一块发表成为了学术论文,从硬件到软件,涵盖了很多问题,值得我们学习。
为什么难
-
性能(High Performance)–> 分片(sharding)
分布式系统,自然想利用大量的机器提供成比例的性能,于是通常将数据分散到不同的机器上,以并行读取。我们称之为:分片(Sharding)。但分片一多,故障率就上来了。
-
故障(Faults)—> 容错(tolerance)
故障多了,就需要进行自动容错。最简单直接、通常也最有效的容错方法就是:备份(Replication,或译为冗余、副本)。如果副本是可修改的,就需要定期同步,这就引出了一致性的问题。
-
副本(Replication)—> 一致性(Consistency)
当然,通过精心的设计,可以维持系统的一致性,但这就意味着你需要损失性能。
-
一致性(Consistency)—> 低性能(Low Performance)
这有点类似于反证法,最后推出了矛盾,说明了构建分布式存储系统这件事的难点所在。在实践中,在给定场景性下,我们有更多的取舍余地,也就让设计一个合理的系统成为可能。
一致性
强一致性
即,尽管存储系统中有很多副本、很多机器,但是对外表现的行为却像单机一样:所有客户端都能够读到其他客户端之前所写内容。这个行为,或者说保证,看起来很简单、自然,但在分布式环境中,这确非易事。这部分想详细了解的可以看一篇关于 CAP 的经典文章。
糟糕设计
为了使得所有副本保持一致性,可以在客户端做同步:每次写操作,都并行的写多个备份。每个备份服务器接收到的写操作顺序可能并不一致,从而造成备份的不一致性。
GFS
在谷歌三篇著名论文(MapReduce,GFS,Bigtable)出来之前,一些分布式的理论大多停留在学术界中,谷歌由于面临海量数据(youtube 视频、网页索引等等)的处理、存储和访问需求,最早开发出了实用的大规模的分布式框架。
特点
- 体量大,速度快(Big,Fast):海量数据的快速存取
- 全球部署(Global):不同 site 的数据访问和共享
- 分片(Sharding):多客户端并发访问,增大吞吐
- 自动恢复(Auto recovery):机器太多,自动化运维
不过接下来,我们只讨论具有以下限定的 GFS:
- 部署在单个数据中心(datacenter)
- 仅供内部使用,不用过多考虑安全性
- 大数据的顺序读写,而非随机访问
GFS 可贵之处在于他是经过实践检验、部署过上千台机器的工业级系统,颠覆了之前学术界中很多的经典设计认知,比如:
- 为了保证数据访问不出错,需要提供强一致性保证(GFS 仅提供某种弱一致性)
- 为了系统的可靠性,用多机来保证主节点的可靠性(GFS 使用了单点 Master)
系统角色
Clients:客户端,通过接口访问系统。
Master:保存命名空间以及元信息
ChunkServer:存储节点。
Master 数据结构
Master 数据:
主要有以下两张表(Map):
- 文件名到 chunk 句柄的映射:filename –> array of chunk handles(nv)
- chunk 句柄到 chunk 元信息的映射(包括副本位置,chunk 版本号,主 chunk,租约过期时间):chunk handle —> list of chunk servers (v)/version (nv)/ Primary (v) /lease expire time (v)
这两个数据结构都存在内存(RAM)中。但为了宕机恢复,需要把一些信息(标记为 nv:non-volatile)写到硬盘上,即:
- 读取,从内存中读即可。
- 写入,修改内存同时在磁盘上记操作日志( LOG)+ 快照(CheckPoint)。对于另外一些信息(标记为 v:volatile),根据从 chunkserver 来的心跳构建即可。
使用日志(Log)而不是数据库(DB)来记录操作信息,是因为在磁盘上,前者更快。但如果操作特别多,恢复起来会很慢。能不能压缩?因此有了快照(snapshot):将操作日志所对应的内存状态通过某种格式(比如说 B-tree)做一个快照。两者结合:将历史信息用快照存储、最近一段信息用操作日志存储。这样既提高了空间利用率,也降低了操作延迟。
读写流程
读取 READS:
- 文件名、偏移量 –请求 -> Master
- Master –回应–> Chunk 句柄,Chunk 副本地址列表(Client 会缓存该信息)
- 客户端向某个副本(比如物理最近)所在的 chunk sever 请求数据,chunk server 返回相应数据
Q&A:
- 待访问数据跨 chunk 怎么办?GFS 会提供客户端 lib,自动将其拆成多次请求。客户端不需要关心这些细节。
写入 WRITES:
这里只讲一下 Record Appends,分两种情况,
- Master 上没有主副本信息(No Primary)
- 找到所有最新副本(即需要大于等于 Master 所知最新版本号)
- Master 选择其中一个作为主副本(Primary),其他的即为从副本(Secondary)
- Master 增加版本号
- Master 将新版本号同步给所有主从副本;同时给主副本一个租约。
- Master 将版本号持久化。
- Master 有主副本信息
- Primary 选定 offset(由于 append 存在并发,Primary 负责将并发的 append 安排一个写入顺序,即给每个 append 一个不同的 offset)。
- 所有副本被通知在该 offset 写入数据。
- 如果所有副本回复 Primary 写成功,Primary 回复 Client 写成功
- 任何一个副本写失败,则 Primary 回复 Client 写失败。Client lib 会自动重试整个 Append 过程。
Q&A:
- 如果 Client 写失败,则最终不同副本可能会存在不一致的区域(有些写成功了,有些写失败了)。但只要最终写成功了,会保证在返回的 offset 处,所有的数据都一致。中间写失败形成的不一致会在读取的时候被跳过。
- 同步数据时,Client 只会同步给最近的一个 replica,然后该 replica 进一步同步给其他 replica。如此链式同步,以避免交换机带宽瓶颈。
- 只有在 Master 认为所请求 chunk 没有主副本时,才会更新版本号。如果能在其内存表中找到主副本地址,则直接返回给 Client。
- 当发生网络分区时,Primary 和 Client 可以正常连接,但是与 Master 失联。租约到期时,没有收到 Primary 心跳(Primary 通过向 Master 心跳来续约),Master 就会认为 Primary 宕机,从而重新选择一个 Primary。此时就会形成 split brain。这种情况就比较难办了。一个解决办法是,Master 等旧 Primary 租约过期(旧 Primary 也知道自己的租约过期时间,没有正常续约时,会自动失去 Primary 身份)后再去选择一个新 Primary。
- 如果要 Append 的某个文件还不存在怎么办?Master 会初始化一个版本号,然后随机选定一个 Primary 和几个 secondaries,然后回复给 Client。
一些问题
为了实现一致性,可能需要类似两阶段提交的协议,但无疑会降低性能。
随着数据量的增大,元信息变多,Master 的内存可能会装不下,也就是 GFS 的单点瓶颈问题。
Master 恢复需要人工接入,导致系统宕机恢复可能需要数十分钟。
网友评论