美文网首页
pyspark 实现数据分桶(Bucketizer)

pyspark 实现数据分桶(Bucketizer)

作者: 米斯特芳 | 来源:发表于2021-07-23 15:48 被阅读0次
from pyspark.sql import SparkSession
from pyspark.ml.feature import Bucketizer
spark = SparkSession\
    .builder\
    .appName("BucketizerExample")\
    .getOrCreate()
splits = [-float("inf"), -0.5, 0.0, 0.5, float("inf")]
data = [(-999.9,), (-0.5,), (-0.3,), (0.0,), (0.2,), (999.9,)]
dataFrame = spark.createDataFrame(data, ["features"])
# splits:区间边界,outputCol:分桶后的特征名
bucketizer = Bucketizer(splits=splits, inputCol="features", outputCol="bucketedFeatures")
# Transform original data into its bucket index.
bucketedData = bucketizer.transform(dataFrame)
print("Bucketizer output with %d buckets" % (len(bucketizer.getSplits())-1))
bucketedData.show()

相关文章

  • pyspark 实现数据分桶(Bucketizer)

  • Hive分桶表

    测试数据 创建分桶表 设置变量,设置分桶为true, 设置reduce数量是分桶的数量个数 加载数据 检查刚刚加载...

  • Hive桶表

    分桶及抽样查询 分桶表数据存储类似与MR分区分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据...

  • pyspark 使用virtualenv打包独立运行环境

    背景: pyspark 运行时需要很多额外数据科学包,比如pandas,numpy, pyspark 等等 。如果...

  • 特征工程

    1、数据分桶(分桶后需要编码) 连续值经常离散化或者分离成“箱子”进行分析, 为什么要做数据分桶呢? 离散后稀疏向...

  • 手把手带你入门PySpark!

    PySpark数据科学入门 PySpark是一种很好的语言,可以大规模地进行探索性数据分析、构建机器学习管道以及为...

  • 黑猴子的家:Hive 分桶及分桶抽样查询

    1、分桶表数据存储 概念 分区针对的是数据的存储路径,分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方...

  • PySpark 通过Arrow加速

    前言 PySpark是Spark 实现 Unify BigData && Machine Learning目标的基...

  • PySpark SQL常用语法

    许多数据分析师都是用HIVE SQL跑数,这里我建议转向PySpark: PySpark的语法是从左到右串行的,便...

  • PySpark的使用

    Spark中使用Python实现WordCount业务 PySpark中的DataFrame DataFrame类...

网友评论

      本文标题:pyspark 实现数据分桶(Bucketizer)

      本文链接:https://www.haomeiwen.com/subject/zaiemltx.html