美文网首页
信息检索导论一:布尔检索

信息检索导论一:布尔检索

作者: 沿哲 | 来源:发表于2021-01-05 17:40 被阅读0次

    电子资源

    GITHUB上的电子书和讲解PPT

    信息检索 (Info Retrieval, IR)概述

    1. IR概念:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

      • 非结构化data:没有清晰、 明显语义结构的data; 通常指自由文本

      • 结构化data:关系数据库/“表”中的数data

      • 半结构化data:不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记

      知乎-结构化、半、非的解释

    2. 布尔检索

      • 概念:布尔查询是指利用 AND, OR 或者 NOT操作符将词项 连接起来的查询

      • 例子:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?

        布尔表达式为 Brutus AND Caesar AND NOT Calpurnia

    • 计算式:110100 AND 110111 AND 101111 = 100100
    1. 检索效果评价

      • 正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4

      • 召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5

        💥 全部返回,正确率低,召回率100%;只返回一个非常可靠的结果,正确率100%,召回率低

        • 写意图 泛-recall高;紧-pre高

        • 人脸闸机 -泛

        • 抓逃犯 -宁可错杀1000不能放过1

    倒排索引

    1. 概念:对每个词项t, 记录所有包含t的文档列表
    1. 步骤

      1. 收集文档

      2. 每篇文档转换为词条

      3. 语言学预处理-归一化,得到词项term

        friends - friend

      4. <词条,docID>二元组

      5. (核心)按照词项字母顺序排序

      6. term doc. frequency 👉 posting lists

    布尔查询的处理

    1. AND查询处理 ∩

    2. OR ∪

    3. NOT -

    4. 布尔表达式:

      (Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

    相关文章

      网友评论

          本文标题:信息检索导论一:布尔检索

          本文链接:https://www.haomeiwen.com/subject/jzewoktx.html