电子资源
信息检索 (Info Retrieval, IR)概述
-
IR概念:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
-
非结构化data:没有清晰、 明显语义结构的data; 通常指自由文本
-
结构化data:关系数据库/“表”中的数data
-
半结构化data:不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记
-
-
布尔检索
-
概念:布尔查询是指利用 AND, OR 或者 NOT操作符将词项 连接起来的查询
-
例子:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?
布尔表达式为 Brutus AND Caesar AND NOT Calpurnia
-
- 计算式:110100 AND 110111 AND 101111 = 100100
-
检索效果评价
-
正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4
-
召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5
💥 全部返回,正确率低,召回率100%;只返回一个非常可靠的结果,正确率100%,召回率低
-
写意图 泛-recall高;紧-pre高
-
人脸闸机 -泛
-
抓逃犯 -宁可错杀1000不能放过1
-
-
倒排索引
- 概念:对每个词项t, 记录所有包含t的文档列表
-
步骤
-
收集文档
-
每篇文档转换为词条
-
语言学预处理-归一化,得到词项term
friends - friend
-
<词条,docID>二元组
-
(核心)按照词项字母顺序排序
-
term doc. frequency 👉 posting lists
-
布尔查询的处理
-
AND查询处理 ∩
-
OR ∪
-
NOT -
-
布尔表达式:
(Brutus OR Caesar) AND NOT (Antony OR Cleopatra)
网友评论