美文网首页
TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 怎样将用单词权重的向量表示一个文档

作者: 孙庚辛 | 来源:发表于2023-09-26 19:27 被阅读0次

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下:

\text{TF-IDF} (w, d) = \text{TF} (w, d) \times \text{IDF} (w)

其中,\text{TF} (w, d) 表示单词 w 在文档 d 中的词频,即出现的次数。\text{IDF} (w) 表示单词 w 的逆文档频率,即所有文档的数量除以包含单词 w 的文档的数量的对数。\text{IDF} (w) 的作用是降低常见单词的权重,提高稀有单词的权重。

例如,假设我们有以下三个文档:

• 文档 1:This is a good book.

• 文档 2:This is a bad book.

• 文档 3:This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量,首先我们需要计算每个单词的 TF 和 IDF 值:

单词 TF(文档 1) TF(文档 2) TF(文档 3) IDF
this 1/5 1/5 1/5 log(3/3) = 0
is 1/5 1/5 1/5 log(3/3) = 0
a 1/5 1/5 0/5 log(3/2) = 0.176
good 1/5 0/5 1/5 log(3/2) = 0.176
bad 0/5 1/5 0/5 log(3/1) = 0.477
book 1/5 1/5 1/5 log(3/3) = 0
not 0/5 0/5 1/5 log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重,例如:

\text{TF-IDF} (\text{good}, \text{文档 1}) = \frac{1}{5} \times \log \frac{3}{2} = 0.035

\text{TF-IDF} (\text{bad}, \text{文档 2}) = \frac{1}{5} \times \log \frac{3}{1} = 0.095

\text{TF-IDF} (\text{not}, \text{文档 3}) = \frac{1}{5} \times \log \frac{3}{1} = 0.095

最后我们可以将每个文档表示为一个由单词权重组成的向量,例如:

• 文档 1:[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2:[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3:[0, 0, 0, -0.035, -0.095, -0.095]

这样,我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

相关文章

  • 信息检索复习(7)——基于向量空间模型的文本分类、Rocchio

    Rocchio分类方法 步骤:先把属于一个类别的样本文档转换成文档向量(tf-idf)。求属于一个类别的样本文档的...

  • tf-idf

    tf-idf:词频-逆向文档频率 ,表示文档是否包含w词 ``` #coding=utf-8 import os ...

  • 【Spark Mllib】TF-IDF&Word2Vec

    1 从数据中抽取合适的特征 1.1 TF-IDF短语加权表示 TF-IDF公式的含义是:在一个文档中出现次数很多的...

  • [Gensim] 1 Word Embedding之bag of

    Gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模...

  • 文本向量化

    知识点普及 逆文档频率(IDF): 每个词的权重,大小与该词在文档中出现频率成反比. TF-IDF:权衡某个分词是...

  • word2vec [3] word2vec

    Word2vec: 单词的向量表示,如果不清楚单词的向量表示是什么,可以参考第一篇。 word2vec通过训练一个...

  • 句向量表示的方式

    句向量,更高维度的文档向量的表示一直都是一个难题,至今都没有一种较好的表示方法。下面从传统句向量的表示方法和深度学...

  • 机器学习(十二) 特征提取 TF-IDF

    一、概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词...

  • OC实现字词向量表示

    简介 字词向量表示本质上就是将一个个离散单词通过一定手段映射到向量中,从而使每个单词都有自己的表征向量。这样最直观...

  • 通俗理解TF-IDF

    定义 在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要...

网友评论

      本文标题:TF-IDF 怎样将用单词权重的向量表示一个文档

      本文链接:https://www.haomeiwen.com/subject/scphbdtx.html