1 排行榜
考虑时间因素
考虑投反对票
考虑好评率
防止水军:用户投票准入,一人一票,用户投票加权
2 采样算法
有限数据采样
公式 s = r^(1/w) 0<r<1
指数分布随机数,λ就是便签权重
无限数据采样
采样:k个样本,k+1的样本以k/n的概率来替换k个采样中的一个
加权采样:k个样本有分数,k+1的分数大于k个样本中最小的那个就替换
3 重复检测
- 生产端
MD5(内容映射字符串),Simhash(分词,求权,hash,1/-1化,加权,求和,1/0化,指纹) - 消费端
简单用定长已读列表,如果列表很长用布隆过滤器(多个hash函数,改变对应位置)https://zhuanlan.zhihu.com/p/43263751
删除在对应的索引增加一个计数器,大于0才行
网友评论