美文网首页分布式缓存(Redis)
Redis解决单个hashkey的value过大与pipelin

Redis解决单个hashkey的value过大与pipelin

作者: shinkeika | 来源:发表于2018-11-28 17:51 被阅读0次

需求

公司目前缓存用户定位信息采用Redis,数据结构采用Hash。随着用户人数增多,单个hashkey的value越来越大,达到200M,严重影响了Redis 的性能。储存用户的hash结构如下。


redis里的hash结构.png

处理思路

根据field生成新的hashkey

$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_'  .  $keyNum;
$res = $redis->hset($newRedisKey, $uid, $location);

然后将单个hashkey里的数组全部循环一遍,根据uid生成的新key去存储。

处理过程中遇到的问题:

1,获取所有数据的方法KEYS 、 HGETALL 等命令应禁止在生产环境使用。看官方文档,有非常显眼的警告。
2,单条处理产生新的key存储1320000数据,由于redis是单线程的,下一次请求必须等待上一次请求执行完成后才能继续执行。这种方式非常依赖网络,非常耗时。经测试,120万数据,网络良好情况下执行需要3个小时。

针对问题一的解决方法

使用hashscan方法获取单个hashkey的所有数据,
优势:相比于keys命令,hscan命令有两个比较明显的优势:
1.scan命令的时间复杂度虽然也是O(N),但它是分次进行的,不会阻塞线程。
2.scan命令提供了limit参数,可以控制每次返回结果的最大条数。
3.SCAN命令是增量的循环,每次调用只会返回一小部分的元素。所以不会有KEYS命令的坑。
4.SCAN命令返回的是一个游标,从0开始遍历,到0结束遍历。

代码如下

$itertor = NULL;
$allUserLocation = $redis->hScan('user_location', $itertor, '*', 10000000);

参数解释
1.user_location为hashkey值
2.itertor为迭代器,起始位置游标
3.pattern 匹配某一种field
4.单次遍历返回个数

针对问题二的解决方法

采用pipeline
优势:Pipeline模式,客户端可以一次性的发送多个命令,无需等待服务端返回。这样就大大的减少了网络往返时间,提高了系统性能。
缺点:不能保证数据完整性
所以需要开启事务multi

$pipe = $redis->multi($redis::PIPELINE);
$keyNum =  (int) floor($uid/100000);
$newRedisKey = 'user_location_' . $keyNum;
try {
            $res = $pipe->hset($newRedisKey, $uid, $location);
    } catch (Exception $e) {
            echo $e->getMessage();
    }
            unset($arrayAllUser[$uid]);
    }
            $result = $pipe->exec();

multi和pipeline的区别
multi相当于一个redis的transaction的,保证整个操作的原子性,避免由于中途出错而导致最后产生的数据不一致。通过测试得知,pipeline方式执行效率要比其他方式高10倍左右的速度,启用multi写入要比没有开启慢一点。

本以为处理到这里就结束了

大坑

pipeline事实上所能容忍的操作个数,和socket-output缓冲区大小/返回结果的数据尺寸都有很大的关系;同时也意味着每个redis-server同时所能支撑的pipeline链接的个数,也是有限的,这将受限于server的物理内存或网络接口的缓冲能力。
处理到117万条数据时 会报错数据无法落地,rdb无法使用;
处理方法
1:命令

    dev:0> config set stop-writes-on-bgsave-error no

2:vi打开redis-server配置的redis.conf文件,然后使用快捷匹配模式:/ stop-writes-on-bgsave-error定位到stop-writes-on-bgsave-error字符串所在位置,接着把后面的yes设置为no即可。然后重启。
3:数据再分批次处理。
我选用第三种方法,每次只处理50万条。

5分钟执行完毕。

完成任务。

参考文档:Redis中scan命令的深入讲解 https://www.jb51.net/article/148698.htm
redis中multi和pipeline区别以及效率(推荐使用pipeline)

相关文章

  • Redis解决单个hashkey的value过大与pipelin

    需求 公司目前缓存用户定位信息采用Redis,数据结构采用Hash。随着用户人数增多,单个hashkey的valu...

  • redis数据结构详解之Hash

    redis中hash对单个key/value操作的命令演示 redis中hash的添加命令hset,如果key不存...

  • 7.4 Pipeline-Value 管道

    7.4.1 Pipeline-Value 处理模式 Pipeline-Value 是责任链模式,但是Pipelin...

  • 面试题

    1.redis存储的时候value值过大会怎么处理 Redis面试题-value超过限制会怎样? 2.某个网站比较...

  • 13.【Redis系列】集群方案2- Codis

    在大数据高并发场景下,单个 Redis 实例往往会显得捉襟见肘。首先体现在内存上,单个 Redis 的内存不宜过大...

  • Redis之慢查询日志

    Redis提供了5种数据结构,但除此之外,Redis还提供了注入慢查询分析,Redis Shell、Pipelin...

  • Redis Cluster 学习

    定义 Redis Cluster 将数据分布到不同的节点当中,以解决Redis使用过程中的容量问题(单个Redis...

  • Redis集群模式1-主从复制+哨兵机制

    单个Redis服务如果宕机的话,服务就不可用了,为了解决这种问题,redis也提供有集群服务。传统的Redis集群...

  • Redis 单key值过大 优化方式

    Redis使用过程中经常会有各种大key的情况, 比如: 1: 单个简单的key存储的value很大 2: has...

  • 5分钟带你入门Redis

    1.redis概述 redis是一个开源的,先进的 key-value 存储可用于构建高性能的存储解决方案。它支持...

网友评论

    本文标题:Redis解决单个hashkey的value过大与pipelin

    本文链接:https://www.haomeiwen.com/subject/vhuzqqtx.html