美文网首页
sklearn.decomposition.PCA的使用笔记

sklearn.decomposition.PCA的使用笔记

作者: 罗石木 | 来源:发表于2018-12-06 20:45 被阅读0次

    sklearn.decomposition.PCA参数

    class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None)

    主成成分分析(Principal Component analysis, PCA)

    利用数据的奇异值分解进行线性降维,将数据投影到低维空间。

    它采用了基于LAPACK实现的完全SVD方法或者Halko等在2009年提出的随机截断SVD方法,这主要取决于输入数据的形状和提取成分的数量。

    也可以采用基于scipy.sparse.linalg ARPACK实现的随机截断SVD方法。

    需要注意的是本类不支持稀疏数据作为输入。如果要处理稀疏数据,可以参考TruncatedSVD类

    更多使用说明参考User Guide

    输入

    n_components : int, float, None or string。降维后的主成成分数量。

    • 如果n_components没有设置,使用所有维度。

      n_components == min(n_samples, n_features)

    • 如果n_components == 'mle'svd_solver == 'full',将采用Minka’s MLE方法得出最终的维度. 而使用n_components == 'mle'时将把svd_solver == 'auto'编译为svd_solver == 'full'.

    • 如果0 < n_components < 1svd_solver == 'full',则方差和需要大于n_components所指定的阈值,PCA会自动地选择下降维数。

    • 如果svd_solver == 'arpack', 主城成分的数量必须严格小于n_featuresn_samples之间的最小值.因此,n_components=None的结果为:

      n_components == min(n_samples, n_features) - 1

    svd_solver : string {‘auto’, ‘full’, ‘arpack’, ‘randomized’}。

    • auto : 基于X.shape和n_components采用默认方法的svd solver:如果输入数据大于500x500且提取的维数小鱼数据最小维数的80%,那么将采用更加有效的randomized方法。其他情况下将计算精确完整的svd,并选择性的截断。

    • full : 通过scipy.linalg.svd,调用标准的LAPACK solver计算精确完整的svd然后选择主成成分。

    • arpack : 通过solver via scipy.sparse.linalg.svds 调用ARPACK solver计算svd并截断成n_components个主成成分。n_components严格满足0 < n_components < min(X.shape)。

    • randomized : 通过Halko等的方法计算随机svd。

    iris数据集PCA降维实例

    import pandas as pd
    import numpy as np
    
    from sklearn.datasets import load_iris
    from sklearn.decomposition import PCA
    from sklearn.model_selection import cross_val_score
    
    iris = load_iris()
    df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
    print(df_iris.head())
    
       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
    0                5.1               3.5                1.4               0.2
    1                4.9               3.0                1.4               0.2
    2                4.7               3.2                1.3               0.2
    3                4.6               3.1                1.5               0.2
    4                5.0               3.6                1.4               0.2
    
    # n_components=1
    pca = PCA(n_components=1)
    pca.fit(df_iris)
    print('explained_variance_ratio: ', pca.explained_variance_ratio_)
    print('explained_variance: ', pca.explained_variance_)
    print('n_components: ', pca.n_components_)
    
    explained_variance_ratio:  [0.92461872]
    explained_variance:  [4.22824171]
    n_components:  1
    
    # n_components=2
    pca = PCA(n_components=2)
    pca.fit(df_iris)
    print('explained_variance_ratio: ', pca.explained_variance_ratio_)
    print('explained_variance: ', pca.explained_variance_)
    print('n_components: ', pca.n_components_)
    
    explained_variance_ratio:  [0.92461872 0.05306648]
    explained_variance:  [4.22824171 0.24267075]
    n_components:  2
    
    # n_components=3
    pca = PCA(n_components=3)
    pca.fit(df_iris)
    print('explained_variance_ratio: ', pca.explained_variance_ratio_)
    print('explained_variance: ', pca.explained_variance_)
    print('n_components: ', pca.n_components_)
    
    explained_variance_ratio:  [0.92461872 0.05306648 0.01710261]
    explained_variance:  [4.22824171 0.24267075 0.0782095 ]
    n_components:  3
    
    # n_components=4
    pca = PCA(n_components=4)
    pca.fit(df_iris)
    print('explained_variance_ratio: ', pca.explained_variance_ratio_)
    print('explained_variance: ', pca.explained_variance_)
    print('n_components: ', pca.n_components_)
    
    explained_variance_ratio:  [0.92461872 0.05306648 0.01710261 0.00521218]
    explained_variance:  [4.22824171 0.24267075 0.0782095  0.02383509]
    n_components:  4
    
    # mle_pca
    mle_pca = PCA(n_components='mle', svd_solver='full')
    mle_pca.fit(df_iris)
    print('explained_variance_ratio: ', mle_pca.explained_variance_ratio_)
    print('explained_variance: ', mle_pca.explained_variance_)
    print('n_components: ', mle_pca.n_components_)
    
    explained_variance_ratio:  [0.92461872 0.05306648 0.01710261]
    explained_variance:  [4.22824171 0.24267075 0.0782095 ]
    n_components:  3
    
    # 使用pca降到3维,并得到新的数据集
    X_pca = mle_pca.fit_transform(df_iris)
    
    print(X_pca)
    
    [[-2.68412563  0.31939725 -0.02791483]
     [-2.71414169 -0.17700123 -0.21046427]
     [-2.88899057 -0.14494943  0.01790026]
     [-2.74534286 -0.31829898  0.03155937]
     [-2.72871654  0.32675451  0.09007924]
     [-2.28085963  0.74133045  0.16867766]
     [-2.82053775 -0.08946138  0.25789216]
     [-2.62614497  0.16338496 -0.02187932]
     [-2.88638273 -0.57831175  0.02075957]
     [-2.6727558  -0.11377425 -0.19763272]]

    相关文章

      网友评论

          本文标题:sklearn.decomposition.PCA的使用笔记

          本文链接:https://www.haomeiwen.com/subject/xijacqtx.html