美文网首页
tfidf与CountVectorizer详解

tfidf与CountVectorizer详解

作者: 灰化肥发黑会挥发 | 来源:发表于2018-05-29 20:43 被阅读0次

使用 CountVectorizer 计算字数

CountVectorizer不同于bagofword的地方在于其不光对单词索引编码,还统计每一个单词出现的次数,提供了一个简单的方法,既可以标记文本文档的集合, 也可以生成每个已知单词的索引, 还可以使用这一套索引对新文档进行编码。

下面是一种使用方法:

实例化一个CountVectorizer类。

调用fit()函数以从一个或多个文档中建立索引。

根据需要在一个或多个文档中调用transform()函数,将每个文档编码为一个向量。

最终会返回一个已编码的向量, 其长度为索引的个数,该向量还携带有文档中每个单词出现的次数信息。

包含很多零的向量被称为稀疏向量。Python 的scipy.sparse包中提供了一种处理稀疏向量的有效方法。

调用 transform() 返回的向量是稀疏向量,这里可以通过调用 toarray() 函数将它们转换回 numpy 数组以便查看并更好地理解这个过程。

下面是使用 CountVectorizer 标记,构建索引,然后编码文档的示例。

from sklearn.feature_extraction.text import CountVectorizer

# 下面是一个文本文档的列表

text = ["The quick brown fox jumped over the lazy dog."]

# 实例化 CountVectorizer 类

vectorizer = CountVectorizer()

# 标记并建立索引

vectorizer.fit(text)

# 查看结果

print(vectorizer.vocabulary_)

# 编码文档

vector = vectorizer.transform(text)

# 查看编码后的向量

print(vector.shape)

print(type(vector))

print(vector.toarray())

在上面的代码中,如下一行是用来帮助我们访问这个索引并查看标记的结果的:

print(vectorizer.vocabulary_)

我们可以看到,所有的单词默认都是小写字母,标点符号也被忽略了。标记的许多方面都是可以配置的,您可以查看API文档中的所有选项。

运行示例之后,首先输出的是索引,然后输出的是编码文档的结构。我们可以看到索引中有8个词,因此编码向量长度为 8。

从接下来输出的类型中可以看出,编码向量是一个稀疏向量。而最后的输出是编码向量的数组版本,其表达的含义是,索引值为 7 的单词出现次数为 2,其余单词出现次数为 1。

{‘dog‘:1,‘fox‘:2,‘over‘:5,‘brown‘:0,‘quick‘:6,‘the‘:7,‘lazy‘:4,‘jumped‘:3}

(1,8)[[11111112]]

重要的是,同一个矢量化器可以用在包含词汇表中没有包括的单词的文档上。不过,没有包括的词会被忽略,并且不会在结果向量中计数。

举个例子,下面是使用上述向量化器对另一个文档进行编码的例子。这个文本文档包含两个词,一个词包含在索引中,另一个不包含在索引中。

相关文章

  • tfidf与CountVectorizer详解

    使用 CountVectorizer 计算字数 CountVectorizer不同于bagofword的地方在于其...

  • sklearn—CountVectorizer详解(转)

    设置停用词列表,处理中文文档 训练集也就是a,b 的词频统计结果,词汇列表、字典为: 这个属性一般用来程序员自我检...

  • CountVectorizer与TfidfVectorizer

    导入 CountVectorizer+TfidfTransformer CountVectorizer会将文本中的...

  • tfidf

    NLP的应用范围:情感分析,文本相似度计算,文本分类。 问题的关键在于,如何把文本表示成计算机能懂的数据形式? 1...

  • 文本特征提取-TfidfVectorizer和CountVect

    Bag of words(词袋) 统计每个词在文档中出现的次数 输出为: tfidf 计算文档中每个词的tfidf...

  • TFIDF与BM25

    TFIDF 先复习一下 tfidf,tf是词频,即某个词 i 在 文章 j 中出现的频率。分母是文章中所有词的个数...

  • 近期中文NLP阅读列表

    1 简单模型 1.1 TFIDF与BM25 外网链接:https://www.jianshu.com/p/8cd3...

  • Hanlp分词实例:Java实现TFIDF算法

    算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。 关于TFIDF算法的介绍...

  • 项目理解

    sklearn.feature_extraction.text.CountVectorizer 将搜集到的文本文档...

  • TF-IDF

    count_vect = CountVectorizer(min_df=0, max_df=0.95, token...

网友评论

      本文标题:tfidf与CountVectorizer详解

      本文链接:https://www.haomeiwen.com/subject/wqxzjftx.html