了解机器学习的童鞋们肯定知道集成学习的两个基本方向,boosting和bagging,怎么样,脑子里是不是马上浮现出两幅画面:
bagging----散落满地的树
boosting----直线接力
我在最初接触到集成学习模型的时候首先知道的就是随机森林,那时候随机森林独霸天下,被各路豪杰奉为永远不会过拟合的无尚心法。这就是bagging方法最具代表性的力作。
至于boosting,厉害了word哥,GBDT,听说这东西直接拿残差的方向作为迭代的方向,试了一下,果真十分了得。于是开始学习学习。。。
之后听说了tianqi大神的xgboost,在一个比赛中裸跑分数比我经过特征工程+模型融合的效果还好,真是给跪,扬我国威啊。
xgboost厉害到了什么程度呢?机器学习比赛改名为:xgboost调参比赛。
最近在一个新比赛中又知道了一个新模型,就是题目中提及的LightGBM,我还没来得及实验,听说在很多数据集上表现优异,官方的数据精度高,快,要知道xgboost在单机上迭代还是比较耗时的。在原来的一个比赛上实验后发现速度提升一倍,精度保持不变。
这里是官方地址:
https://github.com/Microsoft/LightGBM
你可以看到,有很多文件的发布时间就在这几天,甚至就在几个小时之前。
先探索下,跑一跑新的比赛试试看。
网友评论