TF-IDF

作者: 果果求学者 | 来源:发表于2018-11-06 10:48 被阅读0次

TF-IDF是一种统计方法,用以评估一个词语对于一份文档的重要程度。TF表示词频,对一份文档而言,词频是特定词语在这篇文档里出现的次数除以文档的词语总数。

IDF(Inverse document frequency)表示一个词的逆向文档频率指数,可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,它表达的是词语的权重指数

计算出每个词的词频和权重指数后,两者相乘,即可得到这个词在文档中的重要程度。词语的重要性随着它在文档中出现的次数呈正比例增加,但同时会随着它在语料库中出现的频率呈反比例下降。有了TF-IDF这个工具,我们就可以把一篇文档转换为一个向量。首先,可以从数据集(在自然语言处理领域也称为corpus,即语料库)里提取出所有出现的词语,我们称为词典。假设词典里总共有10000个词语,则每个文档都可转化为一个10000维的向量。其次,针对我们要。转换的文档里出现的每个词语,都去计算其TF-IDF的值,并把这个值填入文档向量里这个词所对应的元素上。这样就完成了把一篇文档转换为一个向量的过程。一个文档往往只会有词典里的一小部分词语构成,这就意味着这个向量里的大部分元素都是0.

相关文章

网友评论

      本文标题:TF-IDF

      本文链接:https://www.haomeiwen.com/subject/xkbyxqtx.html