关于数据挖掘中的Multicollinearity问题和时间序列

作者: 401a26360366 | 来源:发表于2017-12-20 18:28 被阅读0次

最近在学习Kaggle上关于预测俄罗斯地产价格的比赛。

这个比赛用到的数据集里，零零总总共有300多个特征，其中有不少特征高度相关，即Multicollinearity。面对这个问题，不少Kernel做了特征选择，有基于VIF去除高度相关特征的，有用PCA降维的。

此外，这个比赛的另一个难点在于，这是时间序列预测。

针对这几个方面（multicollinearity，特征选择，数据挖掘算法下的时间序列预测），我脑子里出现了一些疑问，并试着对这些疑问进行了解答。

以下是我关于这些问题和其答案的简要记录（不详细展开了，权当存档，方便以后回忆和进一步学习）。

XGBoost（或者说tree-based模型）可以处理collinearity，为什么还要做特地在建模前做特征选择/降维？

Feature engineering中主要的特征选择方法有哪些？

Filter：比如通过分析相关系数、variance选取特征
Wrapper：如Backward feature selection, RFE
Embedded：在模型训练过程中完成特征选择，包括基于树模型的特征选择法（DT算法每次都优先选择分类能力最强的特征），和基于惩罚项的特征选择法（如在LR算法中加入l1、l2范数）
Decomposition：PCA、LDA等，通过减少特征数来减少噪音和冗余、减少过度拟合的可能性（这篇解释PCA的文章写得很不错）

在数据挖掘/机器学习中，怎么处理time series forecasting问题？

Time series问题怎么处理multicollinearity？

以上。

网友评论

本文标题：关于数据挖掘中的Multicollinearity问题和时间序列

本文链接：https://www.haomeiwen.com/subject/piqnwxtx.html

关于数据挖掘中的Multicollinearity问题和时间序列