美文网首页
pyspark 保序回归

pyspark 保序回归

作者: 米斯特芳 | 来源:发表于2021-08-26 20:50 被阅读0次

    保序回归

    也称单调回归。按百度定义:保序回归在观念上是寻找一组非递减的片段连续线性函数(piecewise linear continuous functions),即保序函数,使其与样本尽可能的接近。
    在计算中,保序回归是一个二次规划问题,即寻找一组保序函数是其对样本的估计值与样本的真实值间的离差平方和达到最小。
    给定样本Y序列,需要求得回归后序列Y'
    最小化下式:
    \sum_{i=1}^N w_i(Y'_i-Y_i)^2
    并且w_i>0,Y'_1<=Y'_2<=...<=Y'_N
    保序回归可以在有足量样本的支持下对分类器进行校准,并因此被应用于广告排序,质量控制等现实问题。
    参考一篇文章:https://zhuanlan.zhihu.com/p/88623159

    from pyspark.ml.regression import IsotonicRegression
    from pyspark.sql import SparkSession
    
    spark = SparkSession\
        .builder\
        .appName("IsotonicRegressionExample")\
        .getOrCreate()
    
    dataset = spark.read.format("libsvm")\
        .load("sample_isotonic_regression_libsvm_data.txt")
    model = IsotonicRegression().fit(dataset)
    print("Boundaries in increasing order: %s\n" % str(model.boundaries))
    print("Predictions associated with the boundaries: %s\n" % str(model.predictions))
    model.transform(dataset).show()
    

    相关文章

      网友评论

          本文标题:pyspark 保序回归

          本文链接:https://www.haomeiwen.com/subject/invfiltx.html