美文网首页PCA数学原理
利用 PCA 来对数据降维

利用 PCA 来对数据降维

作者: apricoter | 来源:发表于2019-03-03 18:12 被阅读34次

    降维往往作为预处理步骤,其中独立成分分析、因子分析和主成分分析比较流行,主成分分析(PCA)最为广泛。

    PCA借助于一个正交变换,将其分量相关的原随机变量转化成其分量不相关的新随机变量。主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。

    PCA 可以从数据中识别其主要特征,它是通过沿着数据最大方差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

    优点:降低数据的复杂性,识别最重要的多个特征。
    缺点:不一定需要,且可能损失有用信息。

    PCA的主要算法如下:
    组织数据形式,以便于模型使用;
    计算样本每个特征的平均值;
    每个样本数据减去该特征的平均值(归一化处理);
    求协方差矩阵;
    找到协方差矩阵的特征值和特征向量;
    对特征值和特征向量重新排列(特征值从大到小排列);
    对特征值求取累计贡献率;
    对累计贡献率按照某个特定比例选取特征向量集的子集合;
    对原始数据(第三步后)进行转换。

    其中协方差矩阵的分解可以通过按对称矩阵的特征向量来,也可以通过分解矩阵的SVD来实现,而在Scikit-learn中,也是采用SVD来实现PCA算法的。这里给出带SVD的原始算法和Scikit-learn模块实现的PCA类。

    import numpy as np
    from sklearn.decomposition import PCA
    mat = [[-1,-1,0,2,1],[2,0,0,-1,-1],[2,0,1,1,0]]
    Mat = np.array(mat, dtype='float64')
    print('Before PCA transforMation, data is:\n', Mat)
    
    import sys
    #returns choosing how many main factors
    def index_lst(lst, component=0, rate=0):
        #component: numbers of main factors
        #rate: rate of sum(main factors)/sum(all factors)
        #rate range suggest: (0.8,1)
        #if you choose rate parameter, return index = 0 or less than len(lst)
        if component and rate:
            print('Component and rate must choose only one!')
            sys.exit(0)
        if not component and not rate:
            print('Invalid parameter for numbers of components!')
            sys.exit(0)
        elif component:
            print('Choosing by component, components are %s......'%component)
            return component
        else:
            print('Choosing by rate, rate is %s ......'%rate)
            for i in range(1, len(lst)):
                if sum(lst[:i])/sum(lst) >= rate:
                    return i
            return 0
    
    p,n = np.shape(Mat) # shape of Mat 
    p,n
    
    t = np.mean(Mat, 0) # mean of each column
    t
    
    # substract the mean of each column
    for i in range(p):
        for j in range(n):
            Mat[i,j] = float(Mat[i,j]-t[j])
    Mat
    
    # covariance Matrix
    cov_Mat = np.dot(Mat.T, Mat)/(p-1)
    u,d,v = np.linalg.svd(cov_Mat)
    Index = index_lst(d, rate=0.95)  # choose how many main factors
    T2 = np.dot(Mat, u[:,:Index])  # transformed data
    print('We choose %d main factors.'%Index)
    print('After PCA transformation, data becomes:\n',T2)
    
    pca = PCA(n_components=2) # n_components can be integer or float in (0,1)
    pca.fit(mat)  # fit the model
    print('After PCA transformation, data becomes:')
    print(pca.fit_transform(mat))  # transformed data
    

    相关文章

      网友评论

        本文标题:利用 PCA 来对数据降维

        本文链接:https://www.haomeiwen.com/subject/taryuqtx.html