美文网首页
tfidf与CountVectorizer详解

tfidf与CountVectorizer详解

作者: 灰化肥发黑会挥发 | 来源:发表于2018-05-29 20:43 被阅读0次

    使用 CountVectorizer 计算字数

    CountVectorizer不同于bagofword的地方在于其不光对单词索引编码,还统计每一个单词出现的次数,提供了一个简单的方法,既可以标记文本文档的集合, 也可以生成每个已知单词的索引, 还可以使用这一套索引对新文档进行编码。

    下面是一种使用方法:

    实例化一个CountVectorizer类。

    调用fit()函数以从一个或多个文档中建立索引。

    根据需要在一个或多个文档中调用transform()函数,将每个文档编码为一个向量。

    最终会返回一个已编码的向量, 其长度为索引的个数,该向量还携带有文档中每个单词出现的次数信息。

    包含很多零的向量被称为稀疏向量。Python 的scipy.sparse包中提供了一种处理稀疏向量的有效方法。

    调用 transform() 返回的向量是稀疏向量,这里可以通过调用 toarray() 函数将它们转换回 numpy 数组以便查看并更好地理解这个过程。

    下面是使用 CountVectorizer 标记,构建索引,然后编码文档的示例。

    from sklearn.feature_extraction.text import CountVectorizer

    # 下面是一个文本文档的列表

    text = ["The quick brown fox jumped over the lazy dog."]

    # 实例化 CountVectorizer 类

    vectorizer = CountVectorizer()

    # 标记并建立索引

    vectorizer.fit(text)

    # 查看结果

    print(vectorizer.vocabulary_)

    # 编码文档

    vector = vectorizer.transform(text)

    # 查看编码后的向量

    print(vector.shape)

    print(type(vector))

    print(vector.toarray())

    在上面的代码中,如下一行是用来帮助我们访问这个索引并查看标记的结果的:

    print(vectorizer.vocabulary_)

    我们可以看到,所有的单词默认都是小写字母,标点符号也被忽略了。标记的许多方面都是可以配置的,您可以查看API文档中的所有选项。

    运行示例之后,首先输出的是索引,然后输出的是编码文档的结构。我们可以看到索引中有8个词,因此编码向量长度为 8。

    从接下来输出的类型中可以看出,编码向量是一个稀疏向量。而最后的输出是编码向量的数组版本,其表达的含义是,索引值为 7 的单词出现次数为 2,其余单词出现次数为 1。

    {‘dog‘:1,‘fox‘:2,‘over‘:5,‘brown‘:0,‘quick‘:6,‘the‘:7,‘lazy‘:4,‘jumped‘:3}

    (1,8)[[11111112]]

    重要的是,同一个矢量化器可以用在包含词汇表中没有包括的单词的文档上。不过,没有包括的词会被忽略,并且不会在结果向量中计数。

    举个例子,下面是使用上述向量化器对另一个文档进行编码的例子。这个文本文档包含两个词,一个词包含在索引中,另一个不包含在索引中。

    相关文章

      网友评论

          本文标题:tfidf与CountVectorizer详解

          本文链接:https://www.haomeiwen.com/subject/wqxzjftx.html