2.8 LDA的算法原理和算法步骤
输入:数据集 ,其中样本
是
维向量,
,降维后的目标维度
。
定义以下符号:
-
为第
类样本个数;
-
为第
类样本的集合;
-
为第
类样本的均值向量;
-
为第
类样本的协方差矩阵。
其中
假设投影直线是向量 ,对任意样本
,它在直线
上的投影为
,两个类别的中心点
,
在直线
的投影分别为
、
。
LDA的目标
- 类间距离尽量大。两类别的数据中心间的距离
尽量大
- 类内距离尽量小。同类样本投影点的协方差
、
尽量小 。
定义类内散度矩阵
类间散度矩阵
据上分析,优化目标为
根据广义瑞利商的性质,矩阵 的最大特征值为
的最大值,矩阵
的最大特征值对应的特征向量即为
。
LDA算法降维流程如下:
输入:数据集 ,其中样本
是n维向量,
,降维后的目标维度
。
输出:降维后的数据集 。
步骤:
- 计算类内散度矩阵
。
- 计算类间散度矩阵
。
- 计算矩阵
。
- 计算矩阵
的最大的
个特征值。
- 计算
个特征值对应的
个特征向量,记投影矩阵为
。
- 转化样本集的每个样本,得到新样本
。
- 输出新样本集
LDA是个二分类的降维方法。
网友评论