针对本次任务中遇到的问题,进行一些资料的补充。
针对xgb等模型的理解
个人的理解是,这些模型大致分为两类,一类是线性模型(逻辑回归也算广义的线性),一类是树模型。这两类都可以处理回归问题,但是由于线性模型对数据更加敏感,而树模型具有更强的鲁棒性,所以比赛中常见的都是树模型。
像lgb,xgb,catboost都是树模型,它们都是由gbdt发展而来(不知道能不能这么理解)。
另外,需要注意特征筛选环节,lgb等都是嵌入式的,即模型自己就可以筛选;而lr需要通过正则L1,L2等方式筛选。总之,现在不用再蠢到自己动手筛特征了。当然,对特征的深入理解,是有助于优化模型的。
pandas一些小操作
Pandas DataFrame连接表,Merge, Join, Concat的对比
pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置
都是实践中会遇到的,值得收藏哦~
说回特征处理
首先,针对task3里的分桶,个人觉得还是有必要补充一些知识点。
另外,实操中发现power的分桶会出现缺失值,这点需要想办法解决。
其次,针对one hot问题,也有一些额外的知识点可以补充。
最后,针对聚合特征构造,除了task里的brand统计量,还有其它手段。
网友评论