-
由于我们为每个申请人提供了历史数据,因此这在一定程度上是一个时序问题。这意味着最新数据比旧数据更相关。
-
人们的信用问题有很多随机性,这意味着每折数据之间存在很多差异。尝试不同的K折实验设置,以查看您的模型是否稳定,并且通过更多fold拟合LB分数,我们可以将LB的数据想象成更多的1折数据。有时候可能会出现一个离群值,所以
TRUST YOUR LOCAL CV!!!
-
有时候我们获得的许多特征以及与我们生成的特征都与目标无关,而只是混淆了模型。 LGB和XGB具有丰富的工具集,可消除嘈杂的功能并规范化模型。对于此类竞赛,最重要的两个是
feature_fraction
和reg_lambda
。 -
关于数据的一个奇怪之处是,有时候初赛与复赛会给我们提供不同的数据,我们可能不知道为什么会这样,但是研究这些差异可能会带您一些有用的特征。
-
与所有Kaggle竞赛(以及所有机器学习问题)一样,最重要的第一步是获取与测试集匹配的验证集设置。在线下验证值得信赖之前,花时间进行特征设计是没有意义的。这个比较好理解,也是大家经常遇到的一个问题就是
“线下分数涨了为什么线上分数没有涨?”
,所以我们可以尽可能找到一份可靠的验证集以及评估方法,尽量保证线下线上分数趋势变化一致。 -
从业务的角度来看,我们生成的所有有用功能都很有意义。考虑什么情况会导致信用问题并基于这些思想衍生特征。很多特征中的大多数可能不会起作用,但是不要轻易放弃。数据集非常丰富,特征生成的可能性几乎是无限的。
-
享受比赛!有很多比赛违约容易摸奖,容易翻车,尽力而为,剩下交给运气。
网友评论