-
9月12号到10月18号期间,参加了公司举办的两个数据挖掘比赛,广告转化率预估和金融违期率预估,广告最终第六,金融最终第三。
-
特征是模型的上线,线下和线上不一样,线下特征可以做的粗糙,但是泛化能力和覆盖面一定要广。意思就是可以挖的特征都应该加上,宁可多,不可少。
-
不同比赛,对特征挖掘的方法大不一样,一定要结合比赛的背景知识进行挖掘,没有统一的标准。
-
模型要尝试不一样的空间表达能力的模型。树模型,lightgbm,xgboost是必选的,dnn也是必选,ffm表达能力也不错。
-
单模型的预测能力,xgboost不比dnn差,dnn并不是万能的。在数据量少的情况下,dnn的预测能力更弱。
-
模型融合能力很强大,xgboost和dnn结果简单的加权融合,效果非常好。
-
不同比赛,融合算法也不一样。广告的,最终用验证机训练融合模型很有效;金融的,做stack有效。
-
初赛,不要过早的做融合,不优化单模型效果。因为过早融合,会及早透支你的最好结果。复赛时候,看着别人蹭蹭的往上涨,自己后续乏力。两个比赛,初赛都是在前三,复赛都被后面的人追上来了。
-
在咖啡馆写过代码,在地铁中写过代码,早上七点起床第一件事看模型结果,晚上十二点才回家等等,也许这些只能在比赛中才会出现。短期有目的的做一件事,是享受,也是折磨。
-
比赛贵在坚持,但是个人不太喜欢这种hack形式的比赛,很费心智,还是喜欢平平静静的写代码思考问题,也许这是第一次也是最后一次参加比赛吧。
网友评论