美文网首页
Query 相似度判别

Query 相似度判别

作者: Midorra | 来源:发表于2018-12-21 16:59 被阅读0次

问题:

以今日头条为例的搜索场景,推荐的 Query 相关词 Box 出现大量重复,降低有效曝光

思路:

字面匹配:simhash 编辑距离 海明距离

语义匹配:WE相似 BERT

Simhash

Google 广泛使用在页面去重的 Simhash 是首先想到的方法

simhash 的简单实现:https://www.jianshu.com/p/8007c5aaef21

BERT

Google 在 2018 年推出了刷新 11 项 NLP 指标的 BERT

BERT 可以将短语进行向量化,从而比较相似度,并且其提供的 pre-trained 模型十分方便

BERT 的问题是依赖较为麻烦,难以处理

资料:

https://www.cnblogs.com/huilixieqi/p/6493089.html

相关文章

网友评论

      本文标题:Query 相似度判别

      本文链接:https://www.haomeiwen.com/subject/lbkvkqtx.html