美文网首页
数据分析--分类和预测

数据分析--分类和预测

作者: HELLOTREE1 | 来源:发表于2018-12-04 10:38 被阅读0次

    回归分析

    特征选择

    1移除低方差的特征----VarianceThreshold

    2单变量选择

    >>> from sklearn.datasets import load_iris

    >>> from sklearn.feature_selection import SelectKBest

    >>> from sklearn.feature_selection import chi2

    >>> iris = load_iris()

    >>> X, y = iris.data, iris.target

    >>> X.shape(150, 4)

    >>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

    >>> X_new.shape(150, 2)

    单纯使用f回归或者卡方


    3递归特征消除--寻找最优特征子集的贪心算法

    反复构建模型(SVM或者回归模型),根据系数选出最好的或者最差的特征,把选出来的特征放到一边,在剩余的特征中继续重复此过程,直到遍历所有特征。


    2稳定性选择

    基于二次抽样和选择算法结合的方法,选择算法(回归、SVM或者其他类似的 方法)。在不同的数据子集和特征子集上运行特征选择算法,不断重复,最终汇总特征选择结果。

    sklearn中的lasso回归和随机逻辑回归有对稳定性选择实现。

    ****l逻辑回归本质上是线性模型,做的模型有效性检验本质上是线性相关检验,因此筛选出来的变量,是和结果有比较强的线性相关性。不能说被剔除的变量和结果没关系,因为你可能有非线性关系。需要根据实际背景对筛选结果进行分析。


    决策树-----分类、预测、规则提取等领域

    每个叶节点对应一个分类,非叶节点对应一个属性上的划分。自上而下,分而治之。

    相关文章

      网友评论

          本文标题:数据分析--分类和预测

          本文链接:https://www.haomeiwen.com/subject/vsqycqtx.html