主成分分析PCA,利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。
主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系。
一、总体主成分分析
1、基本想法
首先对给定数据进行规范化,使得数据的每一个变量均值为0,方差为1
之后对数据进行正交变换 ,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。
新变量是可能的正交变换中变量的方差的和(信息保存)最大的,方差表示在新变量上信息的大小。
可以用主成分近似地表示原始数据,发现数据的基本结构。
也可把数据由少数主成分表示,对数据降维。
数据集合中的样本由实数空间(正交坐标系)中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。
对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换,将数据投影到新坐标系的坐标轴上。
新坐标系的第一坐标轴,第二坐标轴等分别表示第一主成分,第二主成分等。
数据在每一轴上的坐标值的平方表示相应变量的方差。
这个坐标系是在所有可能的新坐标系中,坐标轴的方差的和最大的。
在数据总体上进行的主成分分析称为总体主成分分析。
在有限样本上进行的主成分分析称为样本主成分分析。
总体主成分分析是样本主成分分析的基础
2、定义和导出
image.png总体主成分
image.png3、主要性质
定理:
image.png推论
image.png总体主成分的性质
image.png4、主成分的个数
主成分分析的主要目的是降维,使用一般选择k(k<<m)个主成分(线性无关变量)来代替m个原有变量(线性相关变量),使问题得以简化,并能保留原有变量的大部分信息
定理
image.png image.png定义
image.png image.png5、规范化变量的总体主成分
在实际问题中,不同变量可能有不同量纲,直接求主成分有时会产生不合理的结果。为消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1。
image.png
规范化随机变量的总体主成分有以下性质:
image.png二、样本主成分分析
总体主成分分析,是定义在样本总体上的。
在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。
样本主成分也和总体主成分具有相同的性质。
1、样本主成分的定义和性质
image.png定义:
image.png在使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵作如下变换:
image.png
2、相关矩阵的特征值分析算法
给定样本矩阵X,利用数据的样本协方差矩阵或者样本相关矩阵的特征值分解进行主成分分析。具体步骤如下:
image.png
3、数据矩阵的奇异值分解算法
假设有k个主成分,给定样本矩阵X,利用数据矩阵奇异值分解进行主成分分析。
网友评论