TF-IDF计算过程

作者: 南风寄羽 | 来源:发表于2019-07-26 20:05 被阅读0次

本文内容主要摘自python machine learning 2nd edition

1、假设我们有以下三个文本

• 'The sun is shining'

• 'The weather is sweet'

• 'The sun is shining, the weather is sweet, and one and one is two

2、利用CountVectorizer类得到如下字典

{'and': 0,'two': 7,'shining': 3,'one': 2,'sun': 4,'weather': 8,'the': 6,'sweet': 5,'is': 1}

3、将步骤1的文档转换为矩阵

[[0 1 0 1 1 0 1 0 0]

[0 1 0 0 0 1 1 0 1]

[2 3 2 1 1 1 2 1 1]]

4.计算tf-idf值

我们以is为例进行计算，is对应的是矩阵第二列。

tf值，表示term在该文本中出现的次数，这里即is在文本3出现的次数，很容易看出是3.

idf值，sklearn做了小小的改动，公式是 (1+log $\frac{1+n_{d} }{1+df(d,t)}$ ). $n_{d}$ 的意思就是文本总数（number of document）,df(d,t)表示包含is 的文件数目，很明显，这里也是3.这样，计算的结果为3*(1+log $\frac{1+3}{1+3}$ )=3.

需要注意的是，sklearn对结果进行了正则化处理。

l2 norm

最终得到的结果为

[[ 0. 0.43 0. 0.56 0.56 0. 0.43 0. 0. ]

[ 0. 0.43 0. 0. 0. 0.56 0.43 0. 0.56]

[ 0.5 0.45 0.5 0.19 0.19 0.19 0.3 0.25 0.19]]

每一行的平方和均为1，这是l2正则化处理的结果。

另外可以看出，原先is的词频是 1 1 3，最终tf-idf值是0.43 0.43 0.45 。

网友评论

本文标题：TF-IDF计算过程

本文链接：https://www.haomeiwen.com/subject/gskaqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

TF-IDF计算过程

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读