美文网首页
(4) redis的数据持久化以及性能

(4) redis的数据持久化以及性能

作者: Mrsunup | 来源:发表于2019-01-01 23:02 被阅读0次

    1.redis的持久化

    Redis支持两种方式的持久化,一种是RDB方式、另一种是AOF(append-only-file)方式前者会根据指定的规则“定时”将内存中的数据存储在硬盘上,而后者在每次执行命令后将命令本身记录下来。两种持久化方式可以单独使用其中一种,也可以将这两种方式结合使用

    1.1RDB快照方式

    当符合一定条件时,Redis会单独创建(fork)一个子进程来进行持久化,会先将数据写入到一个临时文件中,等到持久化过程都结束了,再用这个临时文件替换上次持久化好的文件。整个过程中,主进程是不进行任何IO操作的,这就确保了极高的性能。如果需要进行大规模数据的恢复,且对于数据恢复的完整性不是非常敏感,那RDB方式要比AOF方式更加的高效。RDB的缺点是最后一次持久化后的数据可能丢失

    --fork的作用是复制一个与当前进程一样的进程。新进程的所有数据(变量、环境变量、程序计数器等)数值都和原进程一致,但是是一个全新的进程,并作为原进程的子进程

    Redis会在以下几种情况下对数据进行快照

    1. 根据配置规则进行自动快照
    2. 用户执行SAVE或者GBSAVE命令
    3. 执行FLUSHALL命令
    4. 执行复制(replication)时
    • 根据配置规则进行自动快照

    Redis允许用户自定义快照条件,当符合快照条件时,Redis会自动执行快照操作。快照的条件可以由用户在配置文件中配置。配置格式如下:
    第一个参数是时间窗口,第二个是键的个数,也就是说,在第一个时间参数配置范围内被更改的键的个数大于后面的changes时,即符合快照条件。redis默认配置了三个规则
    save 900 1
    save 300 10
    save 60 10000
    每条快照规则占一行,每条规则之间是“或”的关系。 在900秒(15分)内有一个以上的键被更改则进行快照

    • 用户执行SAVE或BGSAVE命令
    1. save命令

    当执行save命令时,Redis同步做快照操作,在快照执行过程中会阻塞所有来自客户端的请求。当redis内存中的数据较多时,通过该命令将导致Redis较长时间的不响应。所以不建议在生产环境上使用这个命令,而是推荐使用bgsave命令

    1. bgsave命令

    bgsave命令可以在后台异步地进行快照操作,快照的同时服务器还可以继续响应来自客户端的请求。执行BGSAVE后,Redis会立即返回ok表示开始执行快照操作。
    通过LASTSAVE命令可以获取最近一次成功执行快照的时间; (自动快照采用的是异步快照操作)

    • 执行FLUSHALL命令

    执行FLUSHALL命令,会清除redis在内存中的所有数据。执行该命令后,只要redis中配置的快照规则不为空,也就是save 的规则存在。redis就会执行一次快照操作。不管规则是什么样的都会执行。如果没有定义快照规则,就不会执行快照操作

    • 执行复制时
      该操作主要是在主从模式下,redis会在复制初始化时进行自动快照。
      这里只需要了解当执行复制操作时,即时没有定义自动快照规则,并且没有手动执行过快照操作,它仍然会生成RDB快照文件
    1.2AOF方式

    当使用Redis存储非临时数据时,一般需要打开AOF持久化来降低进程终止导致的数据丢失。AOF可以将Redis执行的每一条写命令追加到硬盘文件中,这一过程会降低Redis的性能,但大部分情况下这个影响是能够接受的,另外使用较快的硬盘可以提高AOF的性能

    • 开启AOF
      默认情况下Redis没有开启AOF(append only file)方式的持久化,可以通过appendonly参数启用,在redis.conf中找到appendonly yes
      开启AOF持久化后每执行一条会更改Redis中的数据的命令后,Redis就会将该命令写入硬盘中的AOF文件。AOF文件的保存位置和RDB文件的位置相同,都是通过dir参数设置的,默认的文件名是apendonly.aof. 可以在redis.conf中的属性appendfilename appendonlyh.aof修改
    • AOF的同步频率

    Appendfsync (always,everysec,no)
    AOF日志文件同步的频率:
    always :代表每次写都需要同步写入硬盘,严重降低了redis的速度
    everysec : 每秒钟执行一次同步,显示地将多个命令同步到硬盘
    no : 让操作系统来决定何时进行同步

    • AOF的实现

    AOF文件以纯文本的形式记录Redis执行的写命令例如开启AOF持久化的情况下执行如下4条

    set foo 1
    set foo 2
    set foo 3
    get foo
    

    redis 会将前3条命令写入AOF文件中,通过vim的方式可以看到aof文件中的内容 :

    我们会发现AOF文件的内容正是Redis发送的原始通信协议的内容,从内容中我们发现Redis只记录了3条命令。然后这时有一个问题是前面2条命令其实是冗余的,因为这两条的执行结果都会被第三条命令覆盖。随着执行的命令越来越多,AOF文件的大小也会越来越大,其实内存中实际的数据可能没有多少,那这样就会造成磁盘空间以及redis数据还原的过程比较长的问题。因此我们希望Redis可以自动优化AOF文件,就上面这个例子来说,前面两条是可以被删除的。 而实际上Redis也考虑到了,可以配置一个条件,每当达到一定条件时Redis就会自动重写AOF文件,这个条件的配置问 auto-aof-rewrite-percentage 100 和 auto-aof-rewrite-min-size 64mb

    auto-aof-rewrite-percentage 表示的是当目前的AOF文件大小超过上一次重写时的AOF文件大小的百分之多少时会再次进行重写,如果之前没有重写过,则以启动时AOF文件大小为依据

    auto-aof-rewrite-min-size 表示限制了允许重写的最小AOF文件大小,通常在AOF文件很小的情况下即使其中有很多冗余的命令我们也并不太关

    另外,还可以`通过BGREWRITEAOF 命令手动执行AOF,执行完以后冗余的命令已经被删除了
    在启动时,Redis会逐个执行AOF文件中的命令来将硬盘中的数据载入到内存中,载入的速度相对于RDB会慢一些

    • AOF的重写原理

    Redis 可以在 AOF 文件体积变得过大时,自动地在后台对 AOF 进行重写: 重写后的新 AOF 文件包含了恢复当前数据集所需的最小命令集合。

    重写的流程是这样,主进程会fork一个子进程出来进行AOF重写,这个重写过程并不是基于原有的aof文件来做的,而是有点类似于快照的方式,全量遍历内存中的数据,然后逐个序列到aof文件中。在fork子进程这个过程中,服务端仍然可以对外提供服务,那这个时候重写的aof文件的数据和redis内存数据不一致了怎么办?不用担心,这个过程中,主进程的数据更新操作,会缓存到aof_rewrite_buf中,也就是单独开辟一块缓存来存储重写期间收到的命令,当子进程重写完以后再把缓存中的数据追加到新的aof文件

    当所有的数据全部追加到新的aof文件中后,把新的aof文件重命名,此后所有的操作都会被写入新的aof文件。如果在rewrite过程中出现故障,不会影响原来aof文件的正常工作,只有当rewrite完成后才会切换文件。因此这个rewrite过程是比较可靠的

    2.Redis内存回收

    Redis中提供了多种内存回收策略,当内存容量不足时,为了保证程序的运行,这时就不得不淘汰内存中的一些对象,释放这些对象占用的空间,那么选择淘汰哪些对象呢?
    可以通过修改配置参数maxmemory-policy,其中,默认的策略为noeviction策略,当内存使用达到阈值的时候,所有引起申请内存的命令会报错

    allkeys-lru:从数据集(server.db[i].dict)中挑选最近最少使用的数据淘汰
    适合的场景: 如果我们的应用对缓存的访问都是相对热点数据,那么可以选择这个策略
    allkeys-random:随机移除某个key。
    适合的场景:如果我们的应用对于缓存key的访问概率相等,则可以使用这个策略

    volatile-random:从已设置过期时间的数据集(server.db[i].expires)中任意选择数据淘汰。
    volatile-lru:从已设置过期时间的数据集(server.db[i].expires)中挑选最近最少使用的数据淘汰。
    volatile-ttl:从已设置过期时间的数据集(server.db[i].expires)中挑选将要过期的

    总结
    实际上Redis实现的LRU(Least Recently Used)并不是可靠的LRU,也就是名义上我们使用LRU算法淘汰内存数据,但是实际上被淘汰的键并不一定是真正的最少使用的数据,这里涉及到一个权衡的问题,如果需要在所有的数据中搜索最符合条件的数据,那么一定会增加系统的开销,Redis是单线程的,所以耗时的操作会谨慎一些。为了在一定成本内实现相对的LRU,早期的Redis版本是基于采样的LRU,也就是放弃了从所有数据中搜索解改为采样空间搜索最优解。Redis3.0版本之后,Redis作者对于基于采样的LRU进行了一些优化,目的是在一定的成本内让结果更靠近真实的LRU

    3.Redis是单进程单线程?性能为什么这么快

    Redis采用了一种非常简单的做法,单线程来处理来自所有客户端的并发请求,Redis把任务封闭在一个线程中从而避免了线程安全问题;redis为什么是单线程?

    官方的解释是,CPU并不是Redis的瓶颈所在,Redis的瓶颈主要在机器的内存和网络的带宽。那么Redis能不能处理高并发请求呢?当然是可以的,至于怎么实现的,我们来具体了解一下。 【注意并发不等于并行, 并发性I/O流,意味着能够让一个计算单元来处理来自多个客户端的流请求并行性,意味着服务器能够同时执行几个事情,具有多个计算单元

    • 多路复用

    Redis 是跑在单线程中的,所有的操作都是按照顺序线性执行的,但是由于读写操作等待用户输入或输出都是阻塞的,所以 I/O 操作在一般情况下往往不能直接返回,这会导致某一文件的 I/O 阻塞导致整个进程无法对其它客户提供服务,而 I/O 多路复用就是为了解决这个问题而出现的。

    了解多路复用之前,先简单了解下几种I/O模型

    (1)同步阻塞IO(Blocking IO):即传统的IO模型。
    (2)同步非阻塞IO(Non-blocking IO):默认创建的socket都是阻塞的,非阻塞IO要求socket被设置为NONBLOCK。
    (3)IO多路复用(IO Multiplexing):即经典的Reactor设计模式,也称为异步阻塞IO,Java中的Selector和Linux中的epoll都是这种模式。
    (4)异步IO(Asynchronous IO):即经典的Proactor设计模式,也称为异步非阻塞IO

    同步和异步、阻塞和非阻塞,到底是什么意思,感觉原理都差不多,我来简单解释一下
    同步和异步,指的是用户线程和内核的交互方式
    阻塞和非阻塞,指用户线程调用内核IO操作的方式是阻塞还是非阻塞

    就像在Java中使用多线程做异步处理的概念,通过多线程去执行一个流程,主线程可以不用等待。而阻塞和非阻塞。我们可以理解为假如在同步流程或者异步流程中做IO操作,如果缓冲区数据还没准备好,IO的这个过程会阻塞。

    相关文章

      网友评论

          本文标题:(4) redis的数据持久化以及性能

          本文链接:https://www.haomeiwen.com/subject/hreolqtx.html