美文网首页
统计学习方法——修炼学习笔记16:主成分分析

统计学习方法——修炼学习笔记16:主成分分析

作者: Sam_L | 来源:发表于2020-04-14 20:53 被阅读0次

    主成分分析PCA,利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
    主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。
    主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系。

    一、总体主成分分析

    1、基本想法

    首先对给定数据进行规范化,使得数据的每一个变量均值为0,方差为1
    之后对数据进行正交变换 ,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。
    新变量是可能的正交变换中变量的方差的和(信息保存)最大的,方差表示在新变量上信息的大小。
    可以用主成分近似地表示原始数据,发现数据的基本结构。
    也可把数据由少数主成分表示,对数据降维。

    数据集合中的样本由实数空间(正交坐标系)中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。
    对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换,将数据投影到新坐标系的坐标轴上。
    新坐标系的第一坐标轴,第二坐标轴等分别表示第一主成分,第二主成分等。
    数据在每一轴上的坐标值的平方表示相应变量的方差。
    这个坐标系是在所有可能的新坐标系中,坐标轴的方差的和最大的。

    在数据总体上进行的主成分分析称为总体主成分分析。
    在有限样本上进行的主成分分析称为样本主成分分析。
    总体主成分分析是样本主成分分析的基础

    2、定义和导出

    image.png
    总体主成分
    image.png

    3、主要性质

    定理:
    image.png
    推论
    image.png
    总体主成分的性质
    image.png

    4、主成分的个数

    主成分分析的主要目的是降维,使用一般选择k(k<<m)个主成分(线性无关变量)来代替m个原有变量(线性相关变量),使问题得以简化,并能保留原有变量的大部分信息

    定理
    image.png image.png
    定义
    image.png image.png

    5、规范化变量的总体主成分

    在实际问题中,不同变量可能有不同量纲,直接求主成分有时会产生不合理的结果。为消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1。


    image.png
    规范化随机变量的总体主成分有以下性质:
    image.png

    二、样本主成分分析

    总体主成分分析,是定义在样本总体上的。
    在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。
    样本主成分也和总体主成分具有相同的性质。

    1、样本主成分的定义和性质

    image.png
    定义:
    image.png

    在使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵作如下变换:


    image.png

    2、相关矩阵的特征值分析算法

    给定样本矩阵X,利用数据的样本协方差矩阵或者样本相关矩阵的特征值分解进行主成分分析。具体步骤如下:


    image.png

    3、数据矩阵的奇异值分解算法

    假设有k个主成分,给定样本矩阵X,利用数据矩阵奇异值分解进行主成分分析。

    具体过程:
    image.png
    主成分分析算法
    image.png

    相关文章

      网友评论

          本文标题:统计学习方法——修炼学习笔记16:主成分分析

          本文链接:https://www.haomeiwen.com/subject/kzhxvhtx.html