美文网首页
ML Pipelines

ML Pipelines

作者: 松松土_0b13 | 来源:发表于2020-01-08 15:49 被阅读0次

    pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预言

    pipeline常用组件
    • Transformer:一个抽象概念,包括特征转换和数据预言
    • Estimator:作用于训练数据的抽象概念,例如逻辑回归(用回归思维解决分类问题)的算法
    逻辑回归
    • aggregationDepth: (>= 2) (default: 2)
    • elasticNetParam: 正则化范式比,正则化有两种方式:L1(Lasso)和L2(Ridge),L1用于特征的稀疏化,L2用于防止过拟合(default: 0.0)
    • family: (default: auto)
    • featuresCol: 设置特征列(default: features)
    • fitIntercept: (default: true)
    • labelCol: 设置标签列(default: label)
    • lowerBoundsOnCoefficients: (undefined)
    • lowerBoundsOnIntercepts: . (undefined)
    • maxIter: (>= 0) (default: 100)
    • predictionCol: 设置预测列(default: prediction)
    • probabilityCol: (default: probability)
    • rawPredictionCol: (default: rawPrediction)
    • regParam: 正则化主要用于防止过拟合现象,如果数据集较小,特征维数又多,易出现过拟合,考虑增大正则化系数 (>= 0) (default: 0.0)
    • standardization: 标准化 (default: true)
    • threshold: 设置二分类阈值, [0, 1] (default: 0.5)
    • thresholds: 阈值-多元分类 (undefined)
    • tol: 迭代算法的收敛性 (>= 0) (default: 1.0E-6)
    • upperBoundsOnCoefficients: (undefined)
    • upperBoundsOnIntercepts: (undefined)
    • weightCol: 权重系数

    相关文章

      网友评论

          本文标题:ML Pipelines

          本文链接:https://www.haomeiwen.com/subject/xbwjactx.html