该系列合集会同步发布与 GitHub HomePage
以短语“原子能的应用”为例,可以拆分成三个关键词:“原子能”、“的”和“应用”
主要思想:词出现次数较多的网页应该比它们出现较少的网页相关性高
缺点一:篇幅长度的影响
解决方案:根据篇幅长度,对关键词次数进行归一化,即,称为关键词的“单文本词频” (Term Frequency)
此时,要度量网页与查询之间的相关性,一个简单直接的方法就是:直接使用各个关键词在网页中出现的总词频
若查询包含N个关键词,它们在某个特定网页中的词频分别是,则这个网页的与该查询之间的相关性为:
缺点二:“停止词”的干扰
解决方案:在度量相关性时,不考虑这些词的频率
缺点三:没有考虑不同关键词的信息量。例如,“应用”是个通用的词,而“原子能”是个很专业的词,后者在相关性评估中应该比前者更重要
解决方案:对每个关键词施加一个权重,这个权重的设定必须满足:
预测主题的能力强,则权重大,否则,权重小;
停止词权重为0——不需要对第二个缺点做特殊的处理,在这里就顺带解决了第二个问题;
这样查询与某个网页之间的相关性就变成了:
其中,是第i个关键词对应的权重
那么具体该如何得到呢?
基于这样的常识:如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重就应该大;反之,如果一个词在大量的网页中都出现,看到它仍然难以确定要找什么内容,那么它的权重应该小
因此,假定一个关键词在个网页中出现过,那么越小,的权重就越大
在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse Document Frequency, IDF)
参考资料:
(1) 吴军《数学之美(第二版)》
网友评论