美文网首页存储
Memcached与一致性哈希

Memcached与一致性哈希

作者: 狼之足迹 | 来源:发表于2016-08-26 11:56 被阅读889次

    Memcached是一个分布式的高性能内存对象缓存系统,可以缓存数据,如果没有它,就必须从数据库中获取数据,加重数据库的负担.
    减轻数据库负载,减少应用程序对数据库的调用,加快了数据的访问.

    即使是通过在硬盘上设立高速缓存(cache)的方式,也无法满足海量的数据查询需求。一个典型的实例就是搜索网站,在某些时刻,1s内服务器收到的查询请求会达到千万级别。

    在硬盘表现得日益无力时,人们自然而然就想到了速度更快的内存。Memcached系统就是这种思路的产物。把频繁使用的数据放入内存,在CPU收到数据请求后,就可以直接从内存中返回所需要的结果,而不必访问硬盘。由于内存在访问速度上比硬盘快好几个数量级,因此这种方式就可以大大提高数据库运行的速度和效率。

    Memcached用途示例

    通过在内存里同一维护一个巨大的hashtable,Memcached能够存储各种格式的数据

    Memcached的缓存系统是分布式的,也就是允许在不同的主机上的多个用户同时访问这个系统.这种方式不仅解决了以往只能单机共享的缺憾,还减轻了数据库的压力,同时提高了访问并获取数据的速度

    Memcached缓存技术的特点

    1.协议简单

    服务器与客户端使用简单的基于文本的协议相互通信.

    2.使用了基于libevent的事件处理方法

    libevent是一个程序库,能吧linux李痛得kqueue等事件处理功能封装成一个同一的接口.

    3.基于key-value的数据管理

    Memcached在实际应用中,以守护进程daemon的形式驻留在服务器内存中,等待客户端的连接.通信时,客户端首先与服务器建立连接,随后存取数据

    Memcached的通信机制

    4.自行管理内存

    Memcached缓存给系统的基础是内存,Mem保存的数据都存储在Mem内置的内存存储空间中,而不是文件,这就是快速的原因

    Memcached的内存管理算法Slab Allocator

    1)工作原理

    初衷:减少内存碎片,提高工作效率

    实现:事先将系统分配给Memcached的内存划分为许多下该桶长度的页(默认1M)
    然后将不同的页划分为不同长度的块(chunk)

    Slab Allocator构造图

    2)通过Slab Allocator缓存记录

    Memcached收到一条数据时,会根据数据大小选择何时的块进行存储.Memcached中维持一张表(FreeList[])记录空闲块信息.
    通过这种方法,Memcached成功避免malloc和alloc式的内存管理;同时,通过固定内存块管理,避免了内存碎片的产生.

    3)Slab Allocator的缺点

    解决了内存碎片的问题,但是也带来新的问题.造成了内部碎片的问题:eg,申请85空间,但是只能返回100空间,就有15B的内碎片产生

    4)Memcached的内存删除机制

    客户端向Memcached提交数据时,除了指明key值外,还需要指明这条数据的有效期,超过有效期,客户端就无法看到这个数据了.
    Memcached自身不会释放已分配的内存.通过这种方式,实现对内存空间的重复利用.

    Memcached优先选择已超时的记录的空间,即使如此,依旧可能出现追加新数据时空间不足的问题.

    这时就使用LRU机制来分配空间.:当Memcached的内存空间不足时(无法从Slab Class获取新的空间时)Memcached就会从最近未被使用的记录中搜索,并将其空间分配给新的记录.

    5)支持分布式数据管理

    Memcached是一个高性能的分布式缓存系统.然而服务端没有分布式功能,各个服务器不会相互通信.分布式实现依赖于客户端的程序库,这也是Memcached的一大特点

    (1)Memcached的分布方法

    a.向Memcached添加数据,首先根据客户端算法利用key选择保存的服务器;
    b.服务器选定后,保存数据
    c.获取数据时,以相同的key,相同的算法可以定位到相同的服务器位置,从而获取数据

    客户端上传数据set 客户端获取数据get

    (2)Memcached的分布式算法

    Memcached使用的分布式算法中,我们简单介绍两种:余数哈希;一致性哈希

    A.余数哈希

    根据服务器台数的余数进行哈希,求得键的哈希值,再处理服务器台数,根据余数选择服务器,

    缺点:当添加或者移除服务器时,缓存重组的代价太大,

    当添加服务器,访问数据,Memcached命中率下降,那么就增加了数据库服务器的负载.

    B.一致性哈希

    使用一致性哈希可以有效避免服务器发生改变后对整个系统的影响.此外通过虚拟节点还可以避免负载不均衡的情况

    一致性哈希是将整个哈希值空间组织成一个虚拟的圆环,如假设某哈希函数H的值空间是0~(2^32 -1)(即哈希值是一个32位的无符号整型),这个哈希空间为环

    哈希空间按顺时针方向组织.为确定每台服务器在空间上的位置,按照服务器主机名或者IP地址对每台服务器进行Hash寻址.然后需要使用hash算法来判断数据应该存储在哪个服务器:首先,将数据根据key值使用相同的函数H计算出哈希值h,根据h确定数据在环上的位置,从此位置延环顺时针向下寻找,遇到的第一个服务器就是其应该存储的服务器.

    有三台服务器分布的哈希空间 数据分布的哈希空间

    注:一致性哈希方式,使得服务器保存的哈希值空间是一个范围,而不是一个特定的余数系列.所以减少了增删服务器后的影响.

    一致性哈希的容错性与可扩展性

    eg容错

    对上图,当Server3服务器故障时,数据的存储指示D发生了改变,存放在了Server2上边,系统的存储数据变化最少

    eg扩展
    假设增加服务器Server4
    那么只是B存储在Server4上边了,整体的影响只是发生在了新增节点的区间部分

    一致性哈希的虚拟节点

    为了解决负载均衡问题,引入了虚拟节点概念,通过虚拟节点可以使得数据更均匀分布在系统的服务器上

    eg只有两台服务器时,如图,那么会有很少的数据存放在server2上边

    负载不均衡的哈希空间

    引入虚拟节点可以解决这个问题,

    所谓虚拟节点的机制,就是将每台服务器在空间上映射为多个虚拟节点,大概数据哈希到系统空间时,仍然按照顺时针方向找响应的存储节点,但是找到的却是虚拟节点.然后存储到实际对应的服务器上

    增加虚拟节点后的哈希空间

    相关文章

      网友评论

        本文标题:Memcached与一致性哈希

        本文链接:https://www.haomeiwen.com/subject/gsgasttx.html