判别分析方法是对后验概率进行估计的判别模型方法。如果样本属于某个类的条件概率密度符合高斯分布,对于贝叶斯分类器,决策边界在一般情况下是二次的曲线;如果所有的类别有同样的协方差,决策边界为线性的;当协方差矩阵为对角矩阵时,就是朴素贝叶斯分类器了。
1. 特征转换
对于一个特征空间,我们能否找到一个转换关系,使得被转换后的特征有着相同的协方差矩阵,从而获得线性的决策边界呢?
对于一个协方差矩阵,可以使用奇异值分解:
带入到高斯分布中,得到:
所以 ,还是一个线性变换。
在经过这样的转换之后,决策边界是线性的,缺点就是这个特征转换与分类有关。
2. 线性判别分析LDA
对于数据集
- 估计联合协方差矩阵
- 计算SVD:
- 计算得到变换:
- 计算得到均值:
经过变换之后,分类的决策规则
是个常数,所以需要最小化的第一项,而其中的并不会减少特征的维度。
从几何角度来看,样本会被分到与样本自己距离最近的类别里。所有的样本点都可以投影到上,而依旧可以进行分类。一个二分类的问题可以被减小到以为上的最近邻分类。
对于K分类问题,将样本投影到较小维度的空间里,可以减小样本的维数。
用于降维的LDA主要目标是寻找将特征投影到子空间中,同时使得投影特征的方差最大,也就是是所有样本的投影尽可能分开。子空间的维度为, 对于数据集
- 计算变换过的均值向量的协方差矩阵
,其中 - 计算协方差矩阵的前L个最大的特征值对应的特征向量
- 这L个特征向量组成降维变换矩阵的每一行
上面的分析都是从贝叶斯分类出发的,当数据先验相同,满足高斯分布且协方差相等时,LDA可达到最优分类。
3. Fisher变换
从另一个角度来看,对于二分类的问题,对于给定的数据集,我们设法将样本点投影到一条线上,并且使得同类别的样本尽可能接近,而不同样本的距离尽可能远,再根据投影位置来确定样本类别。
LDA给定数据集,每个类的中心在方向上的投影向量为
需要最大化的目标为类间散度与类内散度的比值:
为了求解,对于每个类别,均值和散度分别为
类内散度矩阵:
类间散度矩阵:
那么目标函数可以重写为
这个形式被称为的广义瑞利商。令,上面的求最大值问题等价于:
由拉格朗日算子法得到
4. LDA降维与PCA
PCA(主成分分析)也是一种常用的降维方法,目的是最大化投影方差,让数据在主轴上投影的方差最大。
求解方法为:
- 对样本进行中心化处理
- 计算样本协方差矩阵
- 对协方差矩阵进行特征值分解
取 - 取最大的前d个特征值对应的特征向量,将n维样本映射到d维。
PCA与LDA相比:
- 与LDA相比, PCA不涉及分类。可以认为PCA降维是针对同一个类别的样本,而LDA是对多个类别的样本同时降维。
- PCA转换得到的特征类似于高斯分布
- PCA转换得到的特征的成分是相互独立的
网友评论