HyperLogLog
什么是 HyperLogLog
HyperLogLog 是基于 HyperLogLog 算法的一种数据结构,该算法可以在极小空间完成独立数量统计。
在本质上还是字符串类型。
重要 API
命令 | 含义 |
---|---|
pfadd key element1 [element2...] | 向HyperLogLog中添加元素 |
pfcount key1 [key2...] | 计算HyperLogLog的独立总数 |
pfmerge destKey key1 [key2...] | 合并多个hyperLogLog到destKey中 |
演示
内存消耗
以百万独立用户为例
elements = ""
key = "2019_06_02:unique:ids"
for i in `seq 1 1000000`
do
elements = "${elements} uuid-"${i}
if [[$((i%1000)) == 0 ]]
then
redis-cli pfadd ${key}${elements}
elements = ""
fi
done
内存消耗 | |
---|---|
1 天 | 15 KB |
1 个月 | 450 KB |
1 年 | 15KB * 365 = 5 MB |
可以看到内存消耗是非常低的,比我们之前学过的 BitMap 还要低得多。
使用经验
Q:既然 HyperLogLog 那么好,那么是不是以后用这个来存储数据就行了呢?
A:这里要考虑两个因素:
- hyperloglog 的错误率为:0.81%,存储的数据不能百分百准确。
- hyperloglog 不能取出单条数据。api 中也没有相关操作。
如果你没有这两个方面的顾虑,那么用 HyperLogLog 来存储大规模数据,还是非常不错的。
网友评论