问题:
以今日头条为例的搜索场景,推荐的 Query 相关词 Box 出现大量重复,降低有效曝光
思路:
字面匹配:simhash 编辑距离 海明距离
语义匹配:WE相似 BERT
Simhash
Google 广泛使用在页面去重的 Simhash 是首先想到的方法
simhash 的简单实现:https://www.jianshu.com/p/8007c5aaef21
BERT
Google 在 2018 年推出了刷新 11 项 NLP 指标的 BERT
BERT 可以将短语进行向量化,从而比较相似度,并且其提供的 pre-trained 模型十分方便
BERT 的问题是依赖较为麻烦,难以处理
资料:
https://www.cnblogs.com/huilixieqi/p/6493089.html
网友评论