美文网首页
信息检索导论二:词项词典及倒排记录表

信息检索导论二:词项词典及倒排记录表

作者: 沿哲 | 来源:发表于2021-01-07 15:02 被阅读0次

文档单位选择

  1. 粒度

    • 定义:粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。

    • 小粒度:“缠绵”,“崎岖”,“葡萄”这些词,虽然有两个字组成,但是仅表达一个意思,这些词的粒度是小的。

    • 大粒度:而“篮球”,“鼠标垫”等词,是由简单词合成的,虽然也只有一个意思,但还可以拆分,如“篮”和“球”,“鼠标”和“垫”。这类词,粒度稍微大一些。

    • 大大粒度:笔记本电脑”,“高清机顶盒”这样的词,粒度就更大了。

  2. 粒度小,召回多,建立倒排索引时,索引的长度就越长

    粒度大,召回少,正确率高

  3. 与信息熵不同,此处的信息量是指

词条

  1. 词条化定义:词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。
image
  1. 问题

    • 特定的词条需要被识别成词项

      • 如编程语言“C++”和“C#”、“B-52”之类的飞行器名字或者叫“MAS*H”的电视秀节目
    • 字符序列类型包括邮件地址

    • 空格拆分

      • San Francisco

        输入 York University(约克大学) 时会返回包含 New York University(纽约大学)的文档。

  2. aren't

  3. 德语 复合名词连写

  4. 中文没有空格 莎拉波娃现在居住在美国东南部的佛罗里达

停用词

  1. 一般不包含语义信息的词: the, a, and, to, be

  2. 汉语中的 “的”、“得”、“地”等等

  3. 然而 President of the United States

应用:关键词提取

词条归一化

  1. 定义:将看起来不完全一致的多个词条归纳成一个等价类, 以便在它们之间进行匹配的过程

  2. 方法:

    1. 隐式地建立等价类:anti-discriminatory和antidiscriminatory映射成词项antidiscriminatory

    2. 显示建立等价类:比如将car和automobile归成同义词

    image
    1. 扩展词表

      如果用户输入windows,那么我们希望返回包含Windows操作系统的文档。但是如果用户输入window,虽然此时可以和小写的windows相匹配,但是不太可能会和Windows操作系统中的Windows相匹配

      image
  3. 问题

    1. 大小写转换问题 Fed (美联储)vs. fed(饲养)

词干还原和词性归并

  1. 词干还原:通常指的是一个很粗略的去除单词两端词缀的启发式过程

    image
  2. 词形归并:通常指利用词汇表和词形分析来去除屈折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词元

    image

带有跳表指针的倒排记录表

image image

词条 词项

词条:一段文本中有效词的子序列,其中每个子序列称为一个词条,出现多次算多个词条

词条类:相同词条构成的集合。

In June, the dog likes to chase the cat in the barn.

12 个词条, 9个词类

词项:一个词项指的是在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。(词项集合和词条集合可以完全不同,比如可以采用某一个分类体系中的类别标签作为词项。当然,在实际的信息检索系统中,词项往往和词条密切相关)

image

相关文章

  • 信息检索导论二:词项词典及倒排记录表

    文档单位选择 粒度定义:粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。小粒度:“缠绵”,“崎...

  • 信息检索复习(2)——词项词典及倒排记录表

    构建倒排索引步骤 收集待建索引的文档(Document) 对这些文档中的文本进行词条化(Tokenizer) 对第...

  • 词项词典与倒排记录表

    构建倒排索引的几个主要步骤: 1 收集待建索引的文档2 对这些文档中的文本进行词条化3 对步骤2中的词条进行语言学...

  • 索引压缩

    索引压缩 信息检索中有两个主要数据结构:词典和倒排记录表,索引压缩主要是压缩这两个数据结构。索引压缩的优点:节省磁...

  • 信息检索导论三:词典及容错式检索

    词典 词典定义:是指存储词项词汇表的数据结构词项词汇表(Term vocabulary): 指的是具体数据词典(D...

  • ElasticSearch倒排索引(Lucene内核结构)

    1、倒排索引原理 倒排索引,简单来说是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表即为倒排索引。有了...

  • 倒排索引C++实现

    信息检索导论的课程第一章讲了倒排索引,关于倒排索引之前一直都是只明白了概念而没有动手实现,今天本想实现一下,无从下...

  • Lucene 搜索过程记录

    介绍 今天记录一下Lucene的搜索过程,基于自己的理解吧。 概要 获取词典及词典的文档号倒排表 解析Query语...

  • 3.4-倒排索引入门

    倒排索引的核心组成 倒排索引包含两个部分单词词典(Term Dictionary), 记录所有文档的单词, 记录单...

  • Elasticsearch 调研

    1. 基础概念 1.1 倒排索引原理 1.2 倒排索引构成 单词词典,使用 BTree 记录所有文档的单词,记录单...

网友评论

      本文标题:信息检索导论二:词项词典及倒排记录表

      本文链接:https://www.haomeiwen.com/subject/rvyzoktx.html