信息检索导论六（简略）：文档评分、词项权重计算

信息检索导论六（简略）：文档评分、词项权重计算

作者: 沿哲 | 来源:发表于2021-01-14 10:09 被阅读0次

信息检索导论六（简略）：文档评分、词项权重计算
信息检索复习（3）——文档评分、词项权重计算、TFIDF、欧式距
特征选择之TF-IDF
文本向量化表示方法一（词袋模型）
elasticsearch实践-提升搜索准确度
信息检索导论二：词项词典及倒排记录表
信息检索导论一：布尔检索
Bag-of-words模型入门
信息检索导论七（部分）：一个完整搜索系统中的评分计算
浅谈信息检索

词项频率

对文档中的每个词项都赋予了一个权重，它取决于该词项在文档中出现的次数

将权重设置为 t 在文档中的出现次数。这种权重计算的结果称为词项频率（term frequencey），记为

逆文档频率
1. 思想：在一个有关汽车工业的文档集中，几乎所有的文档都会包含 auto，此时，auto就没有区分能力。是给文档集频率[词项在文档集中出现的次数]较高的词项赋予较低的权重
2. ：文档频率，出现t的所有文档数
3. ：逆文档频率
  
  ：所有文档的数目
4. 性质：一个罕见词的 idf 往往很高，而高频词的 idf 就可能较低
  image
权重计算
1. t在少数文档中出现，权值最大
  
  t在很多文档中出现/在文档中出现次数很少，权重次之
  
  t在所有文档中出现，权重最小
2. 重合度评分指标：文档的得分是所有查询词项在文档中的出现次数tf之和。当然，我们可以对这种方法进行修正，即不采用tf而采用tf-idf权重求和

查询和文档之间的余弦相似度

用夹角余弦值代替欧氏距离
公式
image
是第i 个词项在查询q中的tf-idf权重

是第i 个词项在文档d中的tf-idf权重
举例
1. 三部小说的相似度，列出tf
image
1. image

相关文章

信息检索导论六（简略）：文档评分、词项权重计算
词项频率对文档中的每个词项都赋予了一个权重，它取决于该词项在文档中出现的次数将权重设置为 t 在文档中的出现...
信息检索复习（3）——文档评分、词项权重计算、TFIDF、欧式距
概念词项频率（term frequency）tf: 词项t在文档d中的频率文档集频率（collection fre...
特征选择之TF-IDF
TF-IDF，最开始用于信息检索，在信息检索中其计算过程如下 TF-IDF模型的主要思想是：如果词w在一篇文档d中...
文本向量化表示方法一（词袋模型）
词袋（Bag-of-words）模型简介 Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索...
elasticsearch实践-提升搜索准确度
索引相关度相关度评分背后的理论词频：词在文档出现频度越高，权重越高因此：减少非关键词的出现次数逆向文档频率：...
信息检索导论二：词项词典及倒排记录表
文档单位选择粒度定义：粒度是衡量文本所含信息量的大小。文本含信息量多，粒度就大，反之就小。小粒度：“缠绵”，“崎...
信息检索导论一：布尔检索
电子资源 GITHUB上的电子书和讲解PPT[https://github.com/luoxufeiyan/Mod...
Bag-of-words模型入门
总括 Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中，BOW模型假定对于一个文档，忽略...
信息检索导论七（部分）：一个完整搜索系统中的评分计算
从搜索引擎用户中得到的结论图省略结论摘要阅读(Viewing abstracts): 用户更可能阅读前几页(1...
浅谈信息检索
按：本文浅谈信息检索是什么，为什么，怎么做等问题，主要内容是Manning等人著的《信息检索导论》前八张的读书笔记...

网友评论

本文标题：信息检索导论六（简略）：文档评分、词项权重计算

本文链接：https://www.haomeiwen.com/subject/kagmaktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|信息检索导论六（简略）：文档评分、词项权重计算|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！