美文网首页
数据挖掘大赛

数据挖掘大赛

作者: 风笛手 | 来源:发表于2017-10-22 17:36 被阅读0次
  • 9月12号到10月18号期间,参加了公司举办的两个数据挖掘比赛,广告转化率预估和金融违期率预估,广告最终第六,金融最终第三。

  • 特征是模型的上线,线下和线上不一样,线下特征可以做的粗糙,但是泛化能力和覆盖面一定要广。意思就是可以挖的特征都应该加上,宁可多,不可少。

  • 不同比赛,对特征挖掘的方法大不一样,一定要结合比赛的背景知识进行挖掘,没有统一的标准。

  • 模型要尝试不一样的空间表达能力的模型。树模型,lightgbm,xgboost是必选的,dnn也是必选,ffm表达能力也不错。

  • 单模型的预测能力,xgboost不比dnn差,dnn并不是万能的。在数据量少的情况下,dnn的预测能力更弱。

  • 模型融合能力很强大,xgboost和dnn结果简单的加权融合,效果非常好。

  • 不同比赛,融合算法也不一样。广告的,最终用验证机训练融合模型很有效;金融的,做stack有效。

  • 初赛,不要过早的做融合,不优化单模型效果。因为过早融合,会及早透支你的最好结果。复赛时候,看着别人蹭蹭的往上涨,自己后续乏力。两个比赛,初赛都是在前三,复赛都被后面的人追上来了。

  • 在咖啡馆写过代码,在地铁中写过代码,早上七点起床第一件事看模型结果,晚上十二点才回家等等,也许这些只能在比赛中才会出现。短期有目的的做一件事,是享受,也是折磨。

  • 比赛贵在坚持,但是个人不太喜欢这种hack形式的比赛,很费心智,还是喜欢平平静静的写代码思考问题,也许这是第一次也是最后一次参加比赛吧。

相关文章

网友评论

      本文标题:数据挖掘大赛

      本文链接:https://www.haomeiwen.com/subject/ekqnuxtx.html