美文网首页
推荐系统陈开江 - C9 其他算法

推荐系统陈开江 - C9 其他算法

作者: 左心Chris | 来源:发表于2019-12-16 13:52 被阅读0次

1 排行榜

考虑时间因素
考虑投反对票
考虑好评率
防止水军:用户投票准入,一人一票,用户投票加权

2 采样算法

有限数据采样

公式 s = r^(1/w) 0<r<1
指数分布随机数,λ就是便签权重

无限数据采样

采样:k个样本,k+1的样本以k/n的概率来替换k个采样中的一个
加权采样:k个样本有分数,k+1的分数大于k个样本中最小的那个就替换

3 重复检测

  • 生产端
    MD5(内容映射字符串),Simhash(分词,求权,hash,1/-1化,加权,求和,1/0化,指纹)
  • 消费端
    简单用定长已读列表,如果列表很长用布隆过滤器(多个hash函数,改变对应位置)https://zhuanlan.zhihu.com/p/43263751
    删除在对应的索引增加一个计数器,大于0才行

相关文章

网友评论

      本文标题:推荐系统陈开江 - C9 其他算法

      本文链接:https://www.haomeiwen.com/subject/ntornctx.html