利用 PCA 来对数据降维

作者: apricoter | 来源:发表于2019-03-03 18:12 被阅读34次

降维往往作为预处理步骤，其中独立成分分析、因子分析和主成分分析比较流行，主成分分析（PCA）最为广泛。

PCA借助于一个正交变换，将其分量相关的原随机变量转化成其分量不相关的新随机变量。主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代，新特征是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的k个特征互不相关。

PCA 可以从数据中识别其主要特征，它是通过沿着数据最大方差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴，后续坐标轴则与前面坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

优点：降低数据的复杂性，识别最重要的多个特征。
缺点：不一定需要，且可能损失有用信息。

PCA的主要算法如下：
组织数据形式，以便于模型使用；
计算样本每个特征的平均值；
每个样本数据减去该特征的平均值（归一化处理）；
求协方差矩阵；
找到协方差矩阵的特征值和特征向量；
对特征值和特征向量重新排列（特征值从大到小排列）；
对特征值求取累计贡献率；
对累计贡献率按照某个特定比例选取特征向量集的子集合；
对原始数据（第三步后）进行转换。

其中协方差矩阵的分解可以通过按对称矩阵的特征向量来，也可以通过分解矩阵的SVD来实现，而在Scikit-learn中，也是采用SVD来实现PCA算法的。这里给出带SVD的原始算法和Scikit-learn模块实现的PCA类。

import numpy as np
from sklearn.decomposition import PCA
mat = [[-1,-1,0,2,1],[2,0,0,-1,-1],[2,0,1,1,0]]
Mat = np.array(mat, dtype='float64')
print('Before PCA transforMation, data is:\n', Mat)

import sys
#returns choosing how many main factors
def index_lst(lst, component=0, rate=0):
    #component: numbers of main factors
    #rate: rate of sum(main factors)/sum(all factors)
    #rate range suggest: (0.8,1)
    #if you choose rate parameter, return index = 0 or less than len(lst)
    if component and rate:
        print('Component and rate must choose only one!')
        sys.exit(0)
    if not component and not rate:
        print('Invalid parameter for numbers of components!')
        sys.exit(0)
    elif component:
        print('Choosing by component, components are %s......'%component)
        return component
    else:
        print('Choosing by rate, rate is %s ......'%rate)
        for i in range(1, len(lst)):
            if sum(lst[:i])/sum(lst) >= rate:
                return i
        return 0

p,n = np.shape(Mat) # shape of Mat 
p,n

t = np.mean(Mat, 0) # mean of each column
t

# substract the mean of each column
for i in range(p):
    for j in range(n):
        Mat[i,j] = float(Mat[i,j]-t[j])
Mat

# covariance Matrix
cov_Mat = np.dot(Mat.T, Mat)/(p-1)
u,d,v = np.linalg.svd(cov_Mat)
Index = index_lst(d, rate=0.95)  # choose how many main factors
T2 = np.dot(Mat, u[:,:Index])  # transformed data
print('We choose %d main factors.'%Index)
print('After PCA transformation, data becomes:\n',T2)

pca = PCA(n_components=2) # n_components can be integer or float in (0,1)
pca.fit(mat)  # fit the model
print('After PCA transformation, data becomes:')
print(pca.fit_transform(mat))  # transformed data

网友评论

本文标题：利用 PCA 来对数据降维

本文链接：https://www.haomeiwen.com/subject/taryuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

利用 PCA 来对数据降维

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

PCA

数学原理