python_numpy_用直线拟合理解主元素分析（PCA）

作者: Kedi | 来源:发表于2016-04-10 20:58 被阅读1034次

python_numpy_用直线拟合理解主元素分析（PCA）
PCA降维
机器学习入门笔记系列（10） | 降维算法--主成分分析算法(P
重测序分析（10）群体进化分析之PCA分析
主成分分析
学习记录——汇编（王爽）、PCA分析和矩阵本质、财富自由之路
C++|点的线性拟合
12-机器学习练习与特征工程、评价指标
Logistic回归
逻辑回归

主成分分析(PCA)

矩阵A中有100个样本数据，每个数据是二维平面上的一个点。如下图所示。求出矩阵A的特征值λ1，λ2，可以看出A矩阵其实是特征值方向上的拉伸成都，λ1>λ2，说明λ1方向上的延展要多一下，如果要压缩A矩阵，则最能体现A特征的特征是让λ1。V1，V2分别是特征λ1，λ2对应的特征向量。

例子
因为λ1>λ2，所以选择v1进行降维，
A'--------->V1'A'---------->1x100(二维向量变成了一维样本)
2X100 ——>1X2X2X100
V1'A'则为被压缩的样本，如果要恢复成原来的矩阵：
V1V1'A'---------->A
(因为S=[V1,V2]是标准正交的，之间点乘为0，和自己点乘为1)

在对A做PCA之前还有一个步奏，需要将A矩阵化为均值为0的矩阵。
这样做的原因是为了让λ1，λ2的方向经过原点，因为不经过原点的直线是不能用一个二维向量表示的，如下图所示：

Paste_Image.png
要表示直线AB上的点A,B的方向必须用
OA=0A'+A'A
OB=OB'+B'B
其中，A'A=B'B=[0,b]'，OA'与OB'为过原点的方向向量。
所以不过原点的直线上的点，必须用一个固定截距向量和一个过原点的方向向量表示，所以需要将A矩阵化为均值为0的矩阵。
编写一个对100X2的数据进行PCA的程序，主要部分如下：

def PCA(dataMat,topNfeat=5):
#topNfeat=5 默认选择前五个最大的特征值
#减去均值 
    meanVals = np.mean(dataMat,axis = 0)
    dataMean = dataMat - meanVals
#求协方差方阵 
    conMat = dataMean.T.dot(dataMean)
#求特征值和特征向量
    eigVals,eigVects = np.linalg.eig(conMat)  
#对特征值进行排序  
    eigValInd = np.argsort(eigVals)
    #得到的eigValInd是从小到大的排列，对应的原数据中该元素的索引
    #x = np.array([3, 1, 2])
    #np.argsort(x)
    #array([1, 2, 0])
    #从小到大依次是1,2,3,1对应的索引是1,2对应的索引是2,3对应的索引是0
    eigValInd = eigValInd[:-(topNfeat+1):-1]
    #逆序，从最大到最小的前topNfeat个
#除去不需要的特征向量
    redeigVects=eigVects[:,eigValInd]  
#求新的数据矩阵
    lowdataMat = dataMean.dot(redeigVects)
#求从低维还原回来的数据
    condata = (lowdataMat.dot(redeigVects.T)) + meanVals
#输出降完维德数据加均值
        #因为降维后的数据是一维的了，所以只能加上dataMat整体的平均数进行恢复了
    reducedata=lowdataMat+np.mean(dataMat)
    return reducedata,condata

结果：

结果

蓝色点是原始数据
黑色点是被降维后的数据
红色点是由被降维的数据恢复的数据
绿色直线是理想的直线

将结果放大，如下图

结果放大

我们可以看到每一个红色点都可以找到一个蓝色的原始数据与它对应。

常用的主元素分析法，除了PCA还有SVD，SVD一般用在矩阵的协方差矩阵不可逆时。
完整代码下载：
http://pan.baidu.com/s/1boU0rG7
提取码：va4v

补充：
python自带PCA函数介绍：

from sklearn.decomposition import PCA#从sklearn中导入PCA

pca = PCA(n_components=0.8,whiten=True)#设置PCA参数#n_components:
#设为大于零的整数，会自动的选取n个主成分,
#设为分数时，选择特征值占总特征值大于n的，作为主成分
#whiten:
#True表示做白化处理，白化处理主要是为了使处理后的数据方差都一致

pca.fit_transform(data)
pca.transform(data)
#对数据data进行主成分分析

sklearn PCA 官方文档
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

python_numpy_用直线拟合理解主元素分析（PCA）
主成分分析(PCA) 矩阵A中有100个样本数据，每个数据是二维平面上的一个点。如下图所示。求出矩阵A的特征值λ1...
PCA降维
参考：如何理解主元分析（PCA）？PCA的数学原理转自：python实现PCA ★ PCA思路：我们的初始矩阵为...
机器学习入门笔记系列（10） | 降维算法--主成分分析算法(P
主成分分析(PCA, Principal Component Analysis) 主成分分析算法(PCA)是最流行...
重测序分析（10）群体进化分析之PCA分析
PCA PCA(Principal Components Analysis)即主成分分析，也称主分量分析或主成分回...
主成分分析
转自博文--主成分分析PCA 概述 “主成分分析（Principal Component Analysis，PCA...
学习记录——汇编（王爽）、PCA分析和矩阵本质、财富自由之路
主成分分析学习笔记（从矩阵的相似变换到PCA运用）要理解PCA算法，我们得先理解矩阵的本质，以及矩阵相似变换的本...
C++|点的线性拟合
一、简单分析点的线性拟合是一般实验数据处理最常用的方法。下面考虑一个用n个数据点拟合成直线的问题，直线模型为 y...
12-机器学习练习与特征工程、评价指标
一.使用PCA识别手写数字 PCA：Principal Component Analysis（主成分分析）PCA通...
Logistic回归
用一条直线对一些数据点进行拟合（该线称为最佳拟合直线），这个拟合过程就成为回归。利用Logistic回归进行分类...
逻辑回归
概念假设现在有一些数据点，我们用一条直线（最佳拟合直线）进行拟合，这个拟合的过程就称作回归。利用Logisti...

网友评论