美文网首页
信息检索导论一:布尔检索

信息检索导论一:布尔检索

作者: 沿哲 | 来源:发表于2021-01-05 17:40 被阅读0次

电子资源

GITHUB上的电子书和讲解PPT

信息检索 (Info Retrieval, IR)概述

  1. IR概念:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

    • 非结构化data:没有清晰、 明显语义结构的data; 通常指自由文本

    • 结构化data:关系数据库/“表”中的数data

    • 半结构化data:不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记

    知乎-结构化、半、非的解释

  2. 布尔检索

    • 概念:布尔查询是指利用 AND, OR 或者 NOT操作符将词项 连接起来的查询

    • 例子:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?

      布尔表达式为 Brutus AND Caesar AND NOT Calpurnia

  • 计算式:110100 AND 110111 AND 101111 = 100100
  1. 检索效果评价

    • 正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4

    • 召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5

      💥 全部返回,正确率低,召回率100%;只返回一个非常可靠的结果,正确率100%,召回率低

      • 写意图 泛-recall高;紧-pre高

      • 人脸闸机 -泛

      • 抓逃犯 -宁可错杀1000不能放过1

倒排索引

  1. 概念:对每个词项t, 记录所有包含t的文档列表
  1. 步骤

    1. 收集文档

    2. 每篇文档转换为词条

    3. 语言学预处理-归一化,得到词项term

      friends - friend

    4. <词条,docID>二元组

    5. (核心)按照词项字母顺序排序

    6. term doc. frequency 👉 posting lists

布尔查询的处理

  1. AND查询处理 ∩

  2. OR ∪

  3. NOT -

  4. 布尔表达式:

    (Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

相关文章

  • 信息检索导论一:布尔检索

    电子资源 GITHUB上的电子书和讲解PPT[https://github.com/luoxufeiyan/Mod...

  • 第一章 布尔检索

    第一章 布尔检索 《信息检索导论》美德两国作者 王斌翻译本文是本人的读书笔记本书参考:http://home.us...

  • 信息检索格式 布尔检索式

    信息检索格式 布尔检索式 名称 符号 表达式 功能逻辑与 * 或and AB 同时含有提问词A和B的文献,为命中...

  • 布尔检索

    布尔检索 IR:广义上指信息获取。 非结构化数据:没有清晰和明显的语义结构的数据,严格意义上讲,非结构化数据并不存...

  • NLP的应用

    1 信息摘要 2 机器翻译 3 统计型机器翻译 4 信息检索 布尔检索向量空间模型概率模型 5 语音识别 6 文本...

  • 浅谈信息检索

    按:本文浅谈信息检索是什么,为什么,怎么做等问题,主要内容是Manning等人著的《信息检索导论》前八张的读书笔记...

  • 信息检索导论三:词典及容错式检索

    词典 词典定义:是指存储词项词汇表的数据结构词项词汇表(Term vocabulary): 指的是具体数据词典(D...

  • 2020年03月16日 DF-IDF

    信息检索概述 信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问...

  • 信息检索复习(1)——布尔查询

    信息检索概述 信息检索(Information Retrieval,简称IR):是从大规模非结构化数据(通常是文本...

  • 学习笔记_2020.02.23

    信息检索_黄如花 怎样利用信息检索省钱

网友评论

      本文标题:信息检索导论一:布尔检索

      本文链接:https://www.haomeiwen.com/subject/jzewoktx.html