信息检索复习（5）——相关反馈及查询扩展

信息检索复习（5）——相关反馈及查询扩展

作者: Eylen | 来源:发表于2018-06-27 09:25 被阅读0次

信息检索复习（5）——相关反馈及查询扩展
✧有关查询的一些knowledge✧
信息检索复习（1）——布尔查询
使用MySQL查询扩展
『IR 信息检索入门必看』#10 查询相关反馈（简明）
信息检索复习（8）——查询似然模型
扩展：信息检索技术
信息分析概论进阶作业一
Mysql全文检索
php 得 pecl工具安装。。。。

查询优化

全局方法

基于同义词词典或wordnet的查询扩展或重构方法
自动构造同义词词典并基于它进行查询扩展
类似拼写校正的技术

局部方法

相关反馈
伪相关反馈
间接相关反馈

相关反馈和伪相关反馈

RF(relevance feedback，相关反馈)：在信息检索的过程中通过用户交互来提高最终的检索结果。
过程：
- 用户提交简短的过程
- 系统返回初次检索结果
- 用户将部分结果进行标注，标注为相关或不相关
- 系统基于用户的反馈计算出一个更好的查询来表示信息需求
- 利用新查询系统返回新检索结果

Rocchio相关反馈算法

基本理论：找到一个最优查询向量q，它与相关文档之间的相似度最大且同时又与不相关文档之间的相似度最小。
最优的查询向量等于相关文档的质心向量和不相关文档的质心向量的差
q0 是原始的查询向量，Dr 和Dnr 是已知的相关和不相关文档集合。α、β 及γ 是上述三者的权重。这些权重能够控制判定结果和原始查询向量之间的平衡：如果存在大量已判断的文档，那么会给β 及γ 赋予较高的权重。修改后的新查询从q0 开始，向着相关文档的质心向量靠近了一段距离，而同时又与不相关文档的质心向量远离了一段距离。新查询可以采用常规的向量空间模型进行检索。通过减去不相关文档的向量，我们很容易保留向量空间的正值分量。在Rocchio 算法中，文档向量中的权重分量如果为负值，那么该分量将会被忽略，也就是说，此时会将该分量权重设为0。
正反馈往往比负反馈更有价值，在很多IR系统中，会将参数设置成 y < b，一个合理的取值是 a = 1, b = 0.75, y = 0.15

基于概率的相关反馈方法

如果已知一些相关和不相关文档，我们可以通过建立分类器而不是修改查询向量的权重进行相关反馈。一种实现分类器的方法是采用朴素贝叶斯概率模型，这样，就可以根据文档的相关性，来估计词项 t 出现在该文档中的概率

相关反馈的作用时机

用户需要有足够的知识来建立一个不错的初始查询。
相关反馈要求相关文档间非常相似。Rocchio相关反馈模型通过计算簇质心向量，隐式的将相关文档看成单个簇。如果相关文档包括多个不同子类，即它们在向量空间中可以聚成多个簇，那么Rocchio方法效果会不太好。

相关反馈不能解决的问题
- 拼写错误
- 跨语言IR
- 用户的词汇表和文档集的词汇表不匹配

Web上的相关反馈

相关反馈技术在Web很少使用（高级搜索）
1. 相关反馈很难向普通用户解释清楚
2. 相关反馈技术主要提高召回率，而Web搜索用户并不在乎

相关反馈策略的评价

至少需要有5篇已判定的文档

q0的正确率-召回率曲线，qm的正确率-召回率曲线，一般MAP指标会有50%的提升。（只对用户没有看过的文档进行评价）
利用剩余文档对反馈后的结果进行评价
给出两个文档集，一个用于初始查询和相关性判定，另一个用于比较和评价

更好的评价方法：进行用户调查
基于时间：与其他方法相比，用户采用相关反馈技术找到相关文档的时间是否更短 / 用户在固定时间内是否能找到更多的相关文档

伪相关反馈（pseudo relevance）（盲相关反馈 blind relevance feedback）

它将相关反馈的人工操作部分自动化，因此，不同于Rocchio算法，用户不再需要进行额外的交互。该方法首先进行正常的检索过程，返回最相关的文档构成初始集，然后假设排名靠前的k篇文档时相关的，最后在此假设上像以往一样进行相关反馈。

间接相关反馈（隐相关反馈 implicit relevance feedback）

Web搜索引擎DirectHit就引入了一种文档排序的思路，即对于某文档，如果用户浏览的次数越多，它的排名越高。

相关文章

信息检索复习（5）——相关反馈及查询扩展
查询优化全局方法基于同义词词典或wordnet的查询扩展或重构方法自动构造同义词词典并基于它进行查询扩展类...
✧有关查询的一些knowledge✧
✧数据检索数据检索是指从数据库中按照预定条件查询数据，及引用相关数据进行计算而获取所需信息的过程。查询数据...
信息检索复习（1）——布尔查询
信息检索概述信息检索（Information Retrieval，简称IR）：是从大规模非结构化数据（通常是文本...
使用MySQL查询扩展
在本教程中，将学习了解MySQL查询扩展，根据自动相关性的反馈扩大搜索结果。 MySQL查询扩展简介在某些情况下...
『IR 信息检索入门必看』#10 查询相关反馈（简明）
访问博客查看本文[https://hwcoder.top/IR-Note-10/] 最新内容，排版更美观ヾ(•ω...
信息检索复习（8）——查询似然模型
在MLE（maximum likelihood estimation，最大似然估计）及一元语言模型的情况下，给定文...
扩展：信息检索技术
信息分析概论进阶作业一
背景根据题述信息及图片、音乐片段检索A-F涉及到的人名、地名等相关信息。分析过程一、地名检索图片另存到本...
Mysql全文检索
一、概述MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索，可以利用全文检索来提高匹配的速度。二...
php 得 pecl工具安装。。。。
安装pecl 安装php扩展查询相关扩展安装相关扩展设置全局php.ini,设置后可以自动添加.

网友评论

本文标题：信息检索复习（5）——相关反馈及查询扩展

本文链接：https://www.haomeiwen.com/subject/dunvyftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|信息检索复习（5）——相关反馈及查询扩展|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！