4.千万日活的系统如何统计UV？

作者: Java程序鱼 | 来源:发表于2021-08-08 11:56 被阅读0次

4.千万日活的系统如何统计UV？
Nginx笔记
微信广告平台
nginx系列：常用利用shell统计日志
SparkStreaming项目实战，实时计算pv和uv（硬肝）
性能优化-记ThreadPoolExecutor和CountDo
Redis应用实战
3.千万日活的签到系统如何设计？
从日志中识别 Spider
统计PV、UV

HyperLogLog

假设有个千万日活的统计系统，需要统计系统每天的UV。如果是你的话你该怎么设计？

如果统计 PV 那非常好办，使用string的incr就搞定了。

但是 UV 不一样，它要去重，同一个用户一天之内的多次访问请求只能计数一次。这就要求每一个网页请求都需要带上用户的 ID，无论是登陆用户还是未登陆用户都需要一个唯一 ID 来标识。

我们第一反应就是为每一个页面搞一个独立的 set 集合来存储所有当天访问过此页面的用户 ID。当一个请求过来时，我们使用 sadd 将用户 ID 塞进去就可以了。通过 scard 可以取出这个集合的大小，这个数字就是这个页面的 UV 数据。没错，这是一个非常简单的方案。

存在问题：

①占用内存，set集合里有1000万条数据，如果一个用户ID占32个字节，一天就320M，这是非常恐怖的

②性能差，当数据量大时，sadd性能会下降

其实对于千万日活系统，老板需要的数据不需要太精确，1001万和1002万对于老板决策没有太大影响。

Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。HyperLogLog 提供不精确的去重计数方案，虽然不精确但是也不是非常不精确，标准误差是 0.81%，这样的精确度已经可以满足上面的 UV 统计需求了。

常用命令

127.0.0.1:6379> pfadd uv user1 ## 将元素参数添加到 HyperLogLog 数据结构中
(integer) 1
127.0.0.1:6379> pfadd uv user2
(integer) 1
127.0.0.1:6379> pfadd uv user1
(integer) 0
127.0.0.1:6379> pfcount uv
(integer) 2

网友评论

面试精选

本文标题：4.千万日活的系统如何统计UV？

本文链接：https://www.haomeiwen.com/subject/zhbwvltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

4.千万日活的系统如何统计UV？

HyperLogLog

相关文章