美文网首页
【《数学之美》笔记(二)】关键词权重的科学度量TF-IDF

【《数学之美》笔记(二)】关键词权重的科学度量TF-IDF

作者: UnderStorm | 来源:发表于2019-04-07 18:51 被阅读0次

    该系列合集会同步发布与 GitHub HomePage


    以短语“原子能的应用”为例,可以拆分成三个关键词:“原子能”、“的”和“应用”

    主要思想:词出现次数较多的网页应该比它们出现较少的网页相关性高

    缺点一:篇幅长度的影响

    解决方案:根据篇幅长度,对关键词次数进行归一化,即TF_c=\frac{n_c}{N},称为关键词的“单文本词频” (Term Frequency)

    此时,要度量网页与查询之间的相关性,一个简单直接的方法就是:直接使用各个关键词在网页中出现的总词频

    若查询包含N个关键词w_1,w_2,...,w_N,它们在某个特定网页中的词频分别是TF_1,TF_2,...,TF_N,则这个网页的与该查询之间的相关性为:

    TF_1+TF_2+...+TF_N

    缺点二:“停止词”的干扰

    解决方案:在度量相关性时,不考虑这些词的频率

    缺点三:没有考虑不同关键词的信息量。例如,“应用”是个通用的词,而“原子能”是个很专业的词,后者在相关性评估中应该比前者更重要

    解决方案:对每个关键词施加一个权重,这个权重的设定必须满足:

    • 预测主题的能力强,则权重大,否则,权重小;

    • 停止词权重为0——不需要对第二个缺点做特殊的处理,在这里就顺带解决了第二个问题;

    这样查询与某个网页之间的相关性就变成了:

    TF_1·IDF_1+TF_2·IDF_2+...+TF_N·IDF_N

    其中,IDF_i是第i个关键词对应的权重

    那么具体该如何得到IDF_i呢?

    基于这样的常识:如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重就应该大;反之,如果一个词在大量的网页中都出现,看到它仍然难以确定要找什么内容,那么它的权重应该小

    因此,假定一个关键词wD_w个网页中出现过,那么D_w越小,w的权重就越大

    在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse Document Frequency, IDF)

    IDF_w=log(\frac{D}{D_w})


    参考资料:

    (1) 吴军《数学之美(第二版)》

    相关文章

      网友评论

          本文标题:【《数学之美》笔记(二)】关键词权重的科学度量TF-IDF

          本文链接:https://www.haomeiwen.com/subject/czzsiqtx.html