pyspark 实现数据分桶（Bucketizer）

作者: 米斯特芳 | 来源:发表于2021-07-23 15:48 被阅读0次

pyspark 实现数据分桶（Bucketizer）
Hive分桶表
Hive桶表
pyspark 使用virtualenv打包独立运行环境
特征工程
手把手带你入门PySpark！
黑猴子的家：Hive 分桶及分桶抽样查询
PySpark 通过Arrow加速
PySpark SQL常用语法
PySpark的使用

from pyspark.sql import SparkSession
from pyspark.ml.feature import Bucketizer
spark = SparkSession\
    .builder\
    .appName("BucketizerExample")\
    .getOrCreate()
splits = [-float("inf"), -0.5, 0.0, 0.5, float("inf")]
data = [(-999.9,), (-0.5,), (-0.3,), (0.0,), (0.2,), (999.9,)]
dataFrame = spark.createDataFrame(data, ["features"])
# splits：区间边界，outputCol：分桶后的特征名
bucketizer = Bucketizer(splits=splits, inputCol="features", outputCol="bucketedFeatures")
# Transform original data into its bucket index.
bucketedData = bucketizer.transform(dataFrame)
print("Bucketizer output with %d buckets" % (len(bucketizer.getSplits())-1))
bucketedData.show()

pyspark 实现数据分桶（Bucketizer）
Hive分桶表
测试数据创建分桶表设置变量,设置分桶为true, 设置reduce数量是分桶的数量个数加载数据检查刚刚加载...
Hive桶表
分桶及抽样查询分桶表数据存储类似与MR分区分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据...
pyspark 使用virtualenv打包独立运行环境
背景： pyspark 运行时需要很多额外数据科学包，比如pandas,numpy, pyspark 等等。如果...
特征工程
1、数据分桶（分桶后需要编码）连续值经常离散化或者分离成“箱子”进行分析, 为什么要做数据分桶呢？离散后稀疏向...
手把手带你入门PySpark！
PySpark数据科学入门 PySpark是一种很好的语言，可以大规模地进行探索性数据分析、构建机器学习管道以及为...
黑猴子的家：Hive 分桶及分桶抽样查询
1、分桶表数据存储概念分区针对的是数据的存储路径，分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方...
PySpark 通过Arrow加速
前言 PySpark是Spark 实现 Unify BigData && Machine Learning目标的基...
PySpark SQL常用语法
许多数据分析师都是用HIVE SQL跑数，这里我建议转向PySpark： PySpark的语法是从左到右串行的，便...
PySpark的使用
Spark中使用Python实现WordCount业务 PySpark中的DataFrame DataFrame类...