美文网首页Amazing RedisOpsDev
借助Redis Bitmap实现简单的布隆过滤器

借助Redis Bitmap实现简单的布隆过滤器

作者: LittleMagic | 来源:发表于2019-06-09 22:20 被阅读75次

    在之前的一篇文章中,我们已经深入理解了布隆过滤器的基本原理,并且了解到它在缓存系统中有较多的应用。Redis提供的Bitmap正好能够作为布隆过滤器所需要的位数组的基础,本文先简要介绍Bitmap,然后给出基于它的布隆过滤器实现。

    Bitmap在Redis中并不是一个单独的数据类型,而是由字符串类型(Redis内部称Simple Dynamic String,SDS)之上定义的与比特相关的操作实现的,此时SDS就被当做位数组了。下面是在redis-cli中使用getbit和setbit指令的操作示例。

    # 字符串"meow"的二进制表示:01101101 01100101 01101111 01110111
    es1:19000> set bitmap_cat "meow"
    OK
    # 最低位下标为0。取得第3位的比特(0)
    es1:19000> getbit bitmap_cat 3
    (integer) 0
    # 取得第23位的比特(1)
    es1:19000> getbit bitmap_cat 23
    (integer) 1
    # 将第7位设为0
    es1:19000> setbit bitmap_cat 7 0
    (integer) 1
    # 将第14位设为1
    es1:19000> setbit bitmap_cat 14 1
    (integer) 0
    # 修改过后的字符串变成了"lgow"
    es1:19000> get bitmap_cat
    "lgow"
    

    Redis的Bitmap是自动扩容的,亦即get/set到高位时,就会主动填充0。此外,还有bitcount指令用于计算特定字节范围内1的个数,bitop指令用来执行位运算(支持and、or、xor和not)。相应的用法可以查询Redis官方文档等。

    下面我们基于Redis(Codis)实现布隆过滤器RedisBloomFilter。根据之前讲解布隆过滤器的文章,要初始化一个布隆过滤器的话,需要两个参数:预估的元素数量,以及可接受的最大误差(即假阳性率)。另外,我们也需要传入Jodis的连接池实例JedisResourcePool,以方便在Redis上操作。RedisBloomFilter类的成员和构造方法如下所示。

    public class RedisBloomFilter {
        private static final Logger LOGGER = Logger.getLogger(RedisBloomFilter.class);
        private static final String BF_KEY_PREFIX = "bf:";
    
        private int numApproxElements;
        private double fpp;
        private int numHashFunctions;
        private int bitmapLength;
    
        private JedisResourcePool jedisResourcePool;
    
        /**
         * 构造布隆过滤器。注意:在同一业务场景下,三个参数务必相同
         *
         * @param numApproxElements 预估元素数量
         * @param fpp               可接受的最大误差(假阳性率)
         * @param jedisResourcePool Codis专用的Jedis连接池
         */
        public RedisBloomFilter(int numApproxElements, double fpp, JedisResourcePool jedisResourcePool) {
            this.numApproxElements = numApproxElements;
            this.fpp = fpp;
            this.jedisResourcePool = jedisResourcePool;
    
            bitmapLength = (int) (-numApproxElements * Math.log(fpp) / (Math.log(2) * Math.log(2)));
            numHashFunctions = Math.max(1, (int) Math.round((double) bitmapLength / numApproxElements * Math.log(2)));
        }
    
        /**
         * 取得自动计算的最优哈希函数个数
         */
        public int getNumHashFunctions() {
            return numHashFunctions;
        }
    
        /**
         * 取得自动计算的最优Bitmap长度
         */
        public int getBitmapLength() {
            return bitmapLength;
        }
    
        // 以下都是方法
    }
    

    为了区分出布隆过滤器对应的Key,在原始Key的前面都加上"bf:"前缀。Bitmap长度bitmapLength和哈希函数个数numHashFunctions则利用Guava版实现中的方法来计算。

    然后,我们需要计算一个元素被k个哈希函数散列后,对应到Bitmap的哪些比特上。这里仍然借鉴了Guava的BloomFilterStrategies实现,采用MurmurHash和双重哈希进行散列。为了应用简单,假设所有元素固定为字符串类型,不用泛型。

        /**
         * 计算一个元素值哈希后映射到Bitmap的哪些bit上
         *
         * @param element 元素值
         * @return bit下标的数组
         */
        private long[] getBitIndices(String element) {
            long[] indices = new long[numHashFunctions];
    
            byte[] bytes = Hashing.murmur3_128()
                .hashObject(element, Funnels.stringFunnel(Charset.forName("UTF-8")))
                .asBytes();
    
            long hash1 = Longs.fromBytes(
                bytes[7], bytes[6], bytes[5], bytes[4], bytes[3], bytes[2], bytes[1], bytes[0]
            );
            long hash2 = Longs.fromBytes(
                bytes[15], bytes[14], bytes[13], bytes[12], bytes[11], bytes[10], bytes[9], bytes[8]
            );
    
            long combinedHash = hash1;
            for (int i = 0; i < numHashFunctions; i++) {
                indices[i] = (combinedHash & Long.MAX_VALUE) % bitmapLength;
                combinedHash += hash2;
            }
    
            return indices;
        }
    

    然后我们就可以通过Jedis的setbit()和getbit()方法来实现向布隆过滤器中插入元素与查询元素是否存在的逻辑了。一个元素会对应多个比特,为了提高效率,流水线就派上用场了。另外,setbit指令不会重置对应Key的过期时间戳。

        /**
         * 插入元素
         *
         * @param key       原始Redis键,会自动加上'bf:'前缀
         * @param element   元素值,字符串类型
         * @param expireSec 过期时间(秒)
         */
        public void insert(String key, String element, int expireSec) {
            if (key == null || element == null) {
                throw new RuntimeException("键值均不能为空");
            }
            String actualKey = BF_KEY_PREFIX.concat(key);
    
            try (Jedis jedis = jedisResourcePool.getResource()) {
                try (Pipeline pipeline = jedis.pipelined()) {
                    for (long index : getBitIndices(element)) {
                        pipeline.setbit(actualKey, index, true);
                    }
                    pipeline.syncAndReturnAll();
                } catch (IOException ex) {
                    LOGGER.error("pipeline.close()发生IOException", ex);
                }
                jedis.expire(actualKey, expireSec);
            }
        }
    
        /**
         * 检查元素在集合中是否(可能)存在
         *
         * @param key     原始Redis键,会自动加上'bf:'前缀
         * @param element 元素值,字符串类型
         */
        public boolean mayExist(String key, String element) {
            if (key == null || element == null) {
                throw new RuntimeException("键值均不能为空");
            }
            String actualKey = BF_KEY_PREFIX.concat(key);
            boolean result = false;
    
            try (Jedis jedis = jedisResourcePool.getResource()) {
                try (Pipeline pipeline = jedis.pipelined()) {
                    for (long index : getBitIndices(element)) {
                        pipeline.getbit(actualKey, index);
                    }
                    result = !pipeline.syncAndReturnAll().contains(false);
                } catch (IOException ex) {
                    LOGGER.error("pipeline.close()发生IOException", ex);
                }
            }
    
            return result;
        }
    

    完毕,写个简单的单元测试吧。假设现在用布隆过滤器来存储已读帖子的ID,Key中包含用户ID和时间。每天预估的每用户最大阅读量是3000篇,最大误差3%。

    public class RedisBloomFilterTest {
        private static final int NUM_APPROX_ELEMENTS = 3000;
        private static final double FPP = 0.03;
        private static final int DAY_SEC = 60 * 60 * 24;
        private static JedisResourcePool jedisResourcePool;
        private static RedisBloomFilter redisBloomFilter;
    
        @BeforeClass
        public static void beforeClass() throws Exception {
            jedisResourcePool = RoundRobinJedisPool.create()
                .curatorClient("10.10.99.130:2181,10.10.99.132:2181,10.10.99.133:2181,10.10.99.124:2181,10.10.99.125:2181,", 10000)
                .zkProxyDir("/jodis/bd-redis")
                .build();
            redisBloomFilter = new RedisBloomFilter(NUM_APPROX_ELEMENTS, FPP, jedisResourcePool);
            System.out.println("numHashFunctions: " + redisBloomFilter.getNumHashFunctions());
            System.out.println("bitmapLength: " + redisBloomFilter.getBitmapLength());
        }
    
        @AfterClass
        public static void afterClass() throws Exception {
            jedisResourcePool.close();
        }
    
        @Test
        public void testInsert() throws Exception {
            redisBloomFilter.insert("topic_read:8839540:20190609", "76930242", DAY_SEC);
            redisBloomFilter.insert("topic_read:8839540:20190609", "76930243", DAY_SEC);
            redisBloomFilter.insert("topic_read:8839540:20190609", "76930244", DAY_SEC);
            redisBloomFilter.insert("topic_read:8839540:20190609", "76930245", DAY_SEC);
            redisBloomFilter.insert("topic_read:8839540:20190609", "76930246", DAY_SEC);
        }
    
        @Test
        public void testMayExist() throws Exception {
            System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930242"));
            System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930244"));
            System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930246"));
            System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930248"));
        }
    } 
    

    观察输出。

    numHashFunctions: 5
    bitmapLength: 21895
    true
    true
    true
    false
    

    相关文章

      网友评论

        本文标题:借助Redis Bitmap实现简单的布隆过滤器

        本文链接:https://www.haomeiwen.com/subject/epznxctx.html