美文网首页
pyspark词频统计

pyspark词频统计

作者: 米斯特芳 | 来源:发表于2021-08-01 16:01 被阅读0次

常用于TD-IDF算法

from pyspark.sql import SparkSession
from pyspark.ml.feature import CountVectorizer
spark = SparkSession\
    .builder\
    .appName("CountVectorizerExample")\
    .getOrCreate()

# Input data: Each row is a bag of words with a ID.
df = spark.createDataFrame([
    (0, "a b c".split(" ")),
    (1, "a b b c a".split(" "))
], ["id", "words"])

# fit a CountVectorizerModel from the corpus.
# minDF:最小文档频率(表示入选的单词至少要在minDF个文档中出现)
# minTF:最小词频(表示该单词在当前文档出现的最小频率)
# vocabSize:词汇表最大容量(只取频率最高的前vocabSize)
cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)
model = cv.fit(df)
# features列:[vocabSize,[idx1,idx2,...],[count1,count2,...]]
# 索引从0开始,按频率出现高低排序,比如这里0对应字母a,1对应b,2对应c
# count表示索引对应的单词在当前文档中出现的频率
result = model.transform(df)
result.show(truncate=False)

相关文章

  • pyspark词频统计

    常用于TD-IDF算法

  • pySpark API 词频统计(5)

    #1 本地计算 pyhont xx.py #2 提交集群 spark-submit --py-files pysp...

  • PySpark 核心概念和操作(词频统计)

    1. Spark核心概念 1.1 Spark简介 Apache Spark是新兴的一种快速通用的大规模数据处理引擎...

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

网友评论

      本文标题:pyspark词频统计

      本文链接:https://www.haomeiwen.com/subject/zmxrvltx.html