思路:输入查询item,官方根据狄利克雷模型输出查询结果,从这些查询结果中选取部分(1000个)重新排序,然后返回给用户。
生成查询(两个阶段)
第一个阶段:确定item,方法:标签(判断是否为短语查询) 维基title(查看是否有item在维基有词条) leftover(不在维基title里边的item)
第二个阶段:根据上边得到的items搜索得到twitters,然后选择几条扩展item(选择item)
涉及到的公式:
For each tweet we:
- Count the number of unique query concepts present in the unstemmed tweet and divide by total number of query concepts (C).
- Count the number of Wikipedia titles present in the tweet and divide by total number of Wikipedia title (T).
- Count the number of original query terms present in the tweet and divide by total number of query terms (Q).
- Calculate a new tweet score: 0.6C + 0.3T + 0.1Q
相关度:
which selects the difference whichvalue is larger than the average difference plus 1.5 times the standard deviation of the differences: *D *≥ µ + 1.5σ.
对查询结果排序(三种方法)
第一种方法:考虑特征,以下为特征,然后根据特征排序
data:image/s3,"s3://crabby-images/d5ba2/d5ba2c679294a351a9a987ae6027a7d4c97dee91" alt=""
第二种方法:数据融合,以下为公式:
data:image/s3,"s3://crabby-images/40cea/40cea8932ef6a873d7ced78a930a047bda036d58" alt=""
第三种方法:URL 助推,扩展url,获取里边的信息
实验结果:
第三种方法最好
网友评论