从搜索引擎用户中得到的结论
-
图省略
-
结论
-
摘要阅读(Viewing abstracts): 用户更可能阅读前几页(1, 2, 3, 4)的结果的摘要
-
点击(Clicking): 点击的分布甚至更有偏向性
-
一半情况下,用户点击排名最高的页面
-
即使排名最高的页面不相关,仍然有30%的用户会点击它。
-
-
启示
-
正确排序相当重要
-
排对最高的页面非常重要
-
精确TOP K检索及其加速方法
-
目标:从文档集的所有文档中找出K 个离查询最近的文档
-
步骤:对每个文档评分(余弦相似度),按照评分高低排序,选出前K个结果
-
加速方法
-
思路一:加快每个余弦相似度的计算
-
思路二:不对所有文档的评分结果排序而直接选出Top K篇文档
-
思路三:能否不需要计算所有N篇文档的得分?
-
精确top K检索加速方法一:快速计算余弦
-
假设每个查询词项都出现1次
- 对于查询 q = jealous gossip,不考虑查询词项的任何权重机制时,2 个非零分量相等,在这里都等于 0.707。
精确top k检索加速方法二:堆法N中选K
-
小根堆、大跟堆
-
小根堆:根结点(亦称为堆顶)的关键字是堆里所有 结点关键字中最小者
-
大跟堆:根结点( 亦称为堆顶)的关键字是堆里所有结点关键字中最大者
image -
堆排序法
-
网友评论