提升得分的关键是模型融合
- 模型融合的方法,用不同模型的输出值,进行加权求和。
这种方法的权值分配很难学习到 - 定点化模型输出的概率值的精度(将小数点后的精度定电话),进行特征排序
- 将输出模型进行映射,通过逻辑回归函数得到新的输出。
- xgboost ,libffm模型的公式推导
- 评价指标
gni系数,ROC曲线下的AUC面积
数据预处理也应该是要考虑的一方面
- 对于脱敏数据应该主要通过数据相关性判断来进行特征预判,判断是否存在数据相关性,可以对不同的数据进行不同的处理包括 binary,catergory,numerical数据,发现数据中隐藏的特征。以及编码方式。
- 缺失值的处理始终是重要的一环。
- 不仅仅可以通过rank来融合,而且还可以通过“boosting”, “bagging”。
- 常见模型 boosting,xgboosting,lgbm,libffm
- 模型融合的时候可以通过输出结果的相关性来衡量模型的相关程度。
- 模型是无法处理字符型和时间型数据的,只能通过增加新的数据特征来产生新的特征。
字符型:家乡所在地/学校所在地。这些都可以构建一个新的特征。可以将省份归类为新的类别特征(按照地域,或者消费水平)。
数值型:可以根据毕业时间,注册时间,申请贷款的时间,来构建新的数值型变量,来预测 - 同时对于输入数据比较多的情况下,可以考虑pca降维
网友评论