美文网首页面试精选
4.千万日活的系统如何统计UV?

4.千万日活的系统如何统计UV?

作者: Java程序鱼 | 来源:发表于2021-08-08 11:56 被阅读0次

    HyperLogLog

    假设有个千万日活的统计系统,需要统计系统每天的UV。如果是你的话你该怎么设计?

    如果统计 PV 那非常好办,使用string的incr就搞定了。

    但是 UV 不一样,它要去重,同一个用户一天之内的多次访问请求只能计数一次。这就要求每一个网页请求都需要带上用户的 ID,无论是登陆用户还是未登陆用户都需要一个唯一 ID 来标识。

    我们第一反应就是为每一个页面搞一个独立的 set 集合来存储所有当天访问过此页面的用户 ID。当一个请求过来时,我们使用 sadd 将用户 ID 塞进去就可以了。通过 scard 可以取出这个集合的大小,这个数字就是这个页面的 UV 数据。没错,这是一个非常简单的方案。

    存在问题:

    ①占用内存,set集合里有1000万条数据,如果一个用户ID占32个字节,一天就320M,这是非常恐怖的

    ②性能差,当数据量大时,sadd性能会下降

    其实对于千万日活系统,老板需要的数据不需要太精确,1001万和1002万对于老板决策没有太大影响。

    Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。HyperLogLog 提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是 0.81%,这样的精确度已经可以满足上面的 UV 统计需求了。

    常用命令

    127.0.0.1:6379> pfadd uv user1 ## 将元素参数添加到 HyperLogLog 数据结构中
    (integer) 1
    127.0.0.1:6379> pfadd uv user2
    (integer) 1
    127.0.0.1:6379> pfadd uv user1
    (integer) 0
    127.0.0.1:6379> pfcount uv
    (integer) 2
    

    相关文章

      网友评论

        本文标题:4.千万日活的系统如何统计UV?

        本文链接:https://www.haomeiwen.com/subject/zhbwvltx.html