美文网首页
kaggle预测车险

kaggle预测车险

作者: 谁是我的小超人 | 来源:发表于2017-11-25 16:11 被阅读0次

    提升得分的关键是模型融合

    • 模型融合的方法,用不同模型的输出值,进行加权求和。
      这种方法的权值分配很难学习到
    • 定点化模型输出的概率值的精度(将小数点后的精度定电话),进行特征排序
    • 将输出模型进行映射,通过逻辑回归函数得到新的输出。
    • xgboost ,libffm模型的公式推导
    • 评价指标
      gni系数,ROC曲线下的AUC面积

    数据预处理也应该是要考虑的一方面

    • 对于脱敏数据应该主要通过数据相关性判断来进行特征预判,判断是否存在数据相关性,可以对不同的数据进行不同的处理包括 binary,catergory,numerical数据,发现数据中隐藏的特征。以及编码方式。
    • 缺失值的处理始终是重要的一环。
    • 不仅仅可以通过rank来融合,而且还可以通过“boosting”, “bagging”。
    • 常见模型 boosting,xgboosting,lgbm,libffm
    • 模型融合的时候可以通过输出结果的相关性来衡量模型的相关程度。
    • 模型是无法处理字符型和时间型数据的,只能通过增加新的数据特征来产生新的特征。
      字符型:家乡所在地/学校所在地。这些都可以构建一个新的特征。可以将省份归类为新的类别特征(按照地域,或者消费水平)。
      数值型:可以根据毕业时间,注册时间,申请贷款的时间,来构建新的数值型变量,来预测
    • 同时对于输入数据比较多的情况下,可以考虑pca降维

    相关文章

      网友评论

          本文标题:kaggle预测车险

          本文链接:https://www.haomeiwen.com/subject/zpycbxtx.html