情感分析之TF-IDF算法

作者: 麒麟楚庄王 | 来源:发表于2018-11-22 21:34 被阅读0次

SEO算法之TF-IDF算法
情感分析之TF-IDF算法
TF-IDF算法之文本分析
关键词提取
关键词抽取模型
python练习17：用jieba分词做关键词提取，用matpl
利用TF-IDF与余弦相似性自动提取关键词
关键词提取
使用sklearn提取TF-IDF文本特征
TF-IDF算法原理介绍

http://mini.eastday.com/bdmip/180414224336264.html

在这篇文章中，主要介绍的内容有：

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

文本的预处理和分词。

如何将单词等分类数据转成为数值格式，以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model)：将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型：

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量，主要包含每个单词在文档上的出现次数。

注意：由于每个文档中出现的单词数量只是整个文档集中很少的一部分，因此会有很多的单词没有出现过，就会被标记为0。所以，特征向量中大多数的元素就会为0，就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型，将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置，每一个句子都是由一个6维的特征向量所组成。其中，第一列的索引为0，对应单词"and"，"and"在第一和二条句子中没有出现过，所以为0，在第三条句子中出现过一些，所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d)，表示在文档d中词汇t的出现次数。

注意：在上面词袋模型中，我们是使用单个的单词来构建词向量，这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外，我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关，如在反垃圾邮件中，n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组，如在"the weather is sweet"这句话中，

1元组："the"、"weather"、"is"、"sweet"。

2元组："the weather"、"weather is"、"is sweet"。

在sklearn中，可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型，默认ngram_range=(1,1)。

sklearn通过CountVecorizer构建2元组