sklearn学习 — 数据降维

作者: _aLIEz | 来源:发表于2020-01-28 22:49 被阅读0次

    数据降维

    降维:特征的数量

    1. 特征选择
    2. 主成分分析

    特征选择

    • 冗余:部分特征的相关的高,容易消耗计算性能
    • 噪声:部分特征对于预测结果有影响
    • filter(过滤式)、embedded(嵌入式)、warpper(包裹式)
    • Variance threshold :方差选择法 >>> filter
      • sklearn.feature_selection.VarianceThreshold
        • VarianceThreshold(thershold=0.0)
          • 删除所有低方差特征
          • Variance.fit_transform(X)
          • X : numpy array格式的数据[n_samples,n_feature]
          • 返回值:训练集差异低于方差特征的将被删除
          • 默认值是保留所有非零的方差特征,即删除所有样本中具有相同值的特征
          • 例[[0,2,0,3],[0,1,4,3],[0,1,1,3]]
    • 主成分分析:decomposition PCA
      • 本质:是一种分析,简化数据集的技术
      • 目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息
      • 作用:可以削弱回归分析或聚类分析特征的数量
      • 数据量过大时使用
      • 把损失减少到最小
      • 语法
      • from sklearn.decomposition import PCA
        • PCA(n_components=None)
        • 将数据分解为较低难度空间
        • PCA.fit_transform(X)
          • X:numpy array格式的数据[n_samples,n_frature]
          • 返回值:指定维度的array
        • 初始化PCA,指定减少后的维度
        • 调用fit_transform
        • 例[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
      • n_components
        • 小数:90%~95%之间 -保留90%数据
        • 整数:较少到的特征数量

    相关文章

      网友评论

        本文标题:sklearn学习 — 数据降维

        本文链接:https://www.haomeiwen.com/subject/zlamthtx.html