Memcached与一致性哈希

作者: 狼之足迹 | 来源:发表于2016-08-26 11:56 被阅读889次

Memcached是一个分布式的高性能内存对象缓存系统,可以缓存数据,如果没有它,就必须从数据库中获取数据,加重数据库的负担.
减轻数据库负载,减少应用程序对数据库的调用,加快了数据的访问.

即使是通过在硬盘上设立高速缓存（cache）的方式，也无法满足海量的数据查询需求。一个典型的实例就是搜索网站，在某些时刻，1s内服务器收到的查询请求会达到千万级别。

在硬盘表现得日益无力时，人们自然而然就想到了速度更快的内存。Memcached系统就是这种思路的产物。把频繁使用的数据放入内存，在CPU收到数据请求后，就可以直接从内存中返回所需要的结果，而不必访问硬盘。由于内存在访问速度上比硬盘快好几个数量级，因此这种方式就可以大大提高数据库运行的速度和效率。

Memcached用途示例

通过在内存里同一维护一个巨大的hashtable,Memcached能够存储各种格式的数据

Memcached的缓存系统是分布式的,也就是允许在不同的主机上的多个用户同时访问这个系统.这种方式不仅解决了以往只能单机共享的缺憾,还减轻了数据库的压力,同时提高了访问并获取数据的速度

Memcached缓存技术的特点

1.协议简单

服务器与客户端使用简单的基于文本的协议相互通信.

2.使用了基于libevent的事件处理方法

libevent是一个程序库,能吧linux李痛得kqueue等事件处理功能封装成一个同一的接口.

3.基于key-value的数据管理

Memcached在实际应用中,以守护进程daemon的形式驻留在服务器内存中,等待客户端的连接.通信时,客户端首先与服务器建立连接,随后存取数据

Memcached的通信机制

4.自行管理内存

Memcached缓存给系统的基础是内存,Mem保存的数据都存储在Mem内置的内存存储空间中,而不是文件,这就是快速的原因

Memcached的内存管理算法Slab Allocator

1)工作原理

初衷:减少内存碎片,提高工作效率

实现:事先将系统分配给Memcached的内存划分为许多下该桶长度的页(默认1M)
然后将不同的页划分为不同长度的块(chunk)

Slab Allocator构造图

2)通过Slab Allocator缓存记录

Memcached收到一条数据时,会根据数据大小选择何时的块进行存储.Memcached中维持一张表(FreeList[])记录空闲块信息.
通过这种方法,Memcached成功避免malloc和alloc式的内存管理;同时,通过固定内存块管理,避免了内存碎片的产生.

3)Slab Allocator的缺点

解决了内存碎片的问题,但是也带来新的问题.造成了内部碎片的问题:eg,申请85空间,但是只能返回100空间,就有15B的内碎片产生

4)Memcached的内存删除机制

客户端向Memcached提交数据时,除了指明key值外,还需要指明这条数据的有效期,超过有效期,客户端就无法看到这个数据了.
Memcached自身不会释放已分配的内存.通过这种方式,实现对内存空间的重复利用.

Memcached优先选择已超时的记录的空间,即使如此,依旧可能出现追加新数据时空间不足的问题.

这时就使用LRU机制来分配空间.:当Memcached的内存空间不足时(无法从Slab Class获取新的空间时)Memcached就会从最近未被使用的记录中搜索,并将其空间分配给新的记录.

5)支持分布式数据管理

Memcached是一个高性能的分布式缓存系统.然而服务端没有分布式功能,各个服务器不会相互通信.分布式实现依赖于客户端的程序库,这也是Memcached的一大特点

(1)Memcached的分布方法

a.向Memcached添加数据,首先根据客户端算法利用key选择保存的服务器;
b.服务器选定后,保存数据
c.获取数据时,以相同的key,相同的算法可以定位到相同的服务器位置,从而获取数据

客户端上传数据set

客户端获取数据get

(2)Memcached的分布式算法

Memcached使用的分布式算法中,我们简单介绍两种:余数哈希;一致性哈希

A.余数哈希

根据服务器台数的余数进行哈希,求得键的哈希值,再处理服务器台数,根据余数选择服务器,

缺点:当添加或者移除服务器时,缓存重组的代价太大,

当添加服务器,访问数据,Memcached命中率下降,那么就增加了数据库服务器的负载.

B.一致性哈希

使用一致性哈希可以有效避免服务器发生改变后对整个系统的影响.此外通过虚拟节点还可以避免负载不均衡的情况

一致性哈希是将整个哈希值空间组织成一个虚拟的圆环,如假设某哈希函数H的值空间是0~(2^32 -1)(即哈希值是一个32位的无符号整型),这个哈希空间为环

哈希空间按顺时针方向组织.为确定每台服务器在空间上的位置,按照服务器主机名或者IP地址对每台服务器进行Hash寻址.然后需要使用hash算法来判断数据应该存储在哪个服务器:首先,将数据根据key值使用相同的函数H计算出哈希值h,根据h确定数据在环上的位置,从此位置延环顺时针向下寻找,遇到的第一个服务器就是其应该存储的服务器.

有三台服务器分布的哈希空间

数据分布的哈希空间

注:一致性哈希方式,使得服务器保存的哈希值空间是一个范围,而不是一个特定的余数系列.所以减少了增删服务器后的影响.

一致性哈希的容错性与可扩展性

eg容错

对上图,当Server3服务器故障时,数据的存储指示D发生了改变,存放在了Server2上边,系统的存储数据变化最少

eg扩展
假设增加服务器Server4
那么只是B存储在Server4上边了,整体的影响只是发生在了新增节点的区间部分

一致性哈希的虚拟节点

为了解决负载均衡问题,引入了虚拟节点概念,通过虚拟节点可以使得数据更均匀分布在系统的服务器上

eg只有两台服务器时,如图,那么会有很少的数据存放在server2上边

负载不均衡的哈希空间

引入虚拟节点可以解决这个问题,

所谓虚拟节点的机制,就是将每台服务器在空间上映射为多个虚拟节点,大概数据哈希到系统空间时,仍然按照顺时针方向找响应的存储节点,但是找到的却是虚拟节点.然后存储到实际对应的服务器上

增加虚拟节点后的哈希空间

网友评论

存储

本文标题：Memcached与一致性哈希

本文链接：https://www.haomeiwen.com/subject/gsgasttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！