美文网首页
pyspark空值处理

pyspark空值处理

作者: 米斯特芳 | 来源:发表于2021-08-13 14:55 被阅读0次

    类似sklearn中的Inputer

    from pyspark.ml.feature import Imputer
    from pyspark.sql import SparkSession
    
    spark = SparkSession\
        .builder\
        .appName("ImputerExample")\
        .getOrCreate()
    
    df = spark.createDataFrame([
        (1.0, float("nan")),
        (2.0, float("nan")),
        (float("nan"), 3.0),
        (4.0, 4.0),
        (5.0, 5.0)
    ], ["a", "b"])
    # strategy:缺失值填充策略,一般有mean,median等
    # missingValue:数据中缺失值用什么表示的,默认float('nan'),也可自定义其他值为缺失值
    imputer = Imputer(strategy='mean',missingValue=nan,inputCols=["a", "b"], outputCols=["out_a", "out_b"])
    model = imputer.fit(df)
    
    model.transform(df).show()
    model.surrogateDF.show()# 显示在strategy策略下,具体使用什么数值填充
    
    

    相关文章

      网友评论

          本文标题:pyspark空值处理

          本文链接:https://www.haomeiwen.com/subject/nkodbltx.html