回归分析
特征选择
1移除低方差的特征----VarianceThreshold
2单变量选择
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import chi2
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape(150, 4)
>>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
>>> X_new.shape(150, 2)
单纯使用f回归或者卡方
3递归特征消除--寻找最优特征子集的贪心算法
反复构建模型(SVM或者回归模型),根据系数选出最好的或者最差的特征,把选出来的特征放到一边,在剩余的特征中继续重复此过程,直到遍历所有特征。
2稳定性选择
基于二次抽样和选择算法结合的方法,选择算法(回归、SVM或者其他类似的 方法)。在不同的数据子集和特征子集上运行特征选择算法,不断重复,最终汇总特征选择结果。
sklearn中的lasso回归和随机逻辑回归有对稳定性选择实现。
****l逻辑回归本质上是线性模型,做的模型有效性检验本质上是线性相关检验,因此筛选出来的变量,是和结果有比较强的线性相关性。不能说被剔除的变量和结果没关系,因为你可能有非线性关系。需要根据实际背景对筛选结果进行分析。
决策树-----分类、预测、规则提取等领域
每个叶节点对应一个分类,非叶节点对应一个属性上的划分。自上而下,分而治之。
网友评论