经典机器学习系列之【线性判别分析LDA】

作者: 小小何先生 | 来源:发表于2020-01-31 14:59 被阅读0次

LDA和PCA降维总结
经典机器学习系列之【线性判别分析LDA】
机器学习之逻辑回归(2)
LDA线性判别分析与PCA降维的区别
机器学习day12线性判别分析
Spark 分布式实现线性判别分析（二分类问题）
线性判别分析
机器学习入门——线性模型（2）线性判别分析
线性判别分析（LDA）
机器学习-线性判别分析LDA

线性判别分析，英文名称Linear Discriminant Analysis(LDA)是一种经典的线性学习方法。本文针对二分类问题，从直观理解，对其数学建模，之后模型求解，再拓展到多分类问题。

大体思想

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

LDA二维示意图

数学原理

道理是这么个道理，我们现在需要在数学上对其进行分析。我们接下来先建立求解上述问题的数学模型，之后再求解。

数学模型建立

那我们怎么从数学上去实现上述的思想呢？这里我们以二分类为例，对其展开叙述：

给定数据集 $D=\{(x_{i},y_{i})\}_{i=1}^{m}$ ， $y_{i} \in \{0,1\}$ ，令 $X_{i}$ 、 $\mu_{i}$ 、 $\sum_{i}$ 分别表示第 $i \in \{0,1\}$ 类示例的集合、均值向量、协方差矩阵。

如果将样本投影到直线 $w$ 上，那么样本所对应的均值和方差也将做一个线性变换，也即是投影之后的均值和方差。依据投影的数学关系，我们可以知道，原始样本的均值在 $w$ 上的投影为 $w^{T}\mu_{i}$ ；原始样本的协方差在 $w$ 上的投影为 $w^{T}\sum_{i}w$ ；由于直线在一维空间上，所以 $w^{T}\mu_{0}$ 、 $w^{T}\mu_{1}$ 、 $w^{T}\sum_{0}w$ 、 $w^{T}\sum_{1}w$ 均为实数。

让同类样本的投影点尽可能接近这句话在数学上就可以表示为，让同类样本的协方差尽可能地小。即 $w^{T}\sum_{0}w$ + $w^{T}\sum_{1}w$ 尽可能地小；
让异类样本投影点尽可能地远离，所表示的意思就是，让两类样本的均值之间的距离尽可能地大。即 $||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}$ 尽可能大。

综合以上两点，组合一个最大化的目标函数 $J$ ：

$J=\frac{||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}}{w^{T}\sum_{0}w+w^{T}\sum_{1}w} \\ =\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w}$

这个式子看起来符号有点多，我们将其化简一下，定义两个量：类内散度矩阵和类间散度矩阵：

类内散度矩阵(within-class scatter matrix)：

定义类内散度矩阵 $S_{w}=\sum_{0}+\sum_{1}$ 将其展开可得：

$=\sum_{x\in X_{0}}(x-\mu_{0})(x-\mu_{0})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}$

类间散度矩阵(between-class scatter matrix)：

定义类间散度矩阵 $S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}$ 。

此时，最大化的目标函数 $J$ 可重写为：

$J = \frac{w^{T}S_{b}w}{w^{T}S_{w}w}$

把上式称为 $S_{b}$ 与 $S_{w}$ 的广义瑞利商(generalized rayleigh quotient)。

数学模型求解

现在的问题就变成了，我们怎么来求这个投影方向 $w$ ，使得目标函数最大。

优化目标函数 $J$ 的分子和分母都是关于 $w$ 的二次项，因此求解最大化 $J$ 与 $w$ 的长度无关，只与其方向有关。那么我们将分母约束为1，将原问题转换为带有约束的最优化问题，再利用拉格朗日乘子法对其求解即可，原问题等价为：

$min_{w} \ \ -w^{T}S_{b}w$

$s.t. \ \ w^{T}S_{w}w =1$

由拉格朗日乘子法可知，上式等价于：

$S_{b}w=\lambda S_{w}w$

其中 $\lambda$ 是拉格朗日乘子。由于 $(\mu_{0}-\mu_{1})^{T}w$ 是标量，所以 $S_{b}w$ 的方向恒为 $\mu_{0}-\mu_{1}$ ，不妨令：

$S_{b}w=\lambda(\mu_{0}-\mu_{1})$

这里之所以可以令参数为 $\lambda$ ，是因为整个问题我们都在求解方向，且 $S_{b}w$ 的方向恒为 $\mu_{0}-\mu_{1}$ ，所以长度设置怎么好算怎么来。将 $S_{b}w=\lambda(\mu_{0}-\mu_{1})$ 带入 $S_{b}w=\lambda S_{w}w$ 可得：

$w=S_{w}^{-1}(\mu_{0}-\mu_{1})$

到这里投影方向 $w$ 的求解就完事了。但上述解涉及到求逆矩阵，考虑数值解的稳定性，实践过程中通常将 $S_{w}$ 进行奇异值分解。 $S_{w}=U\sum V$ ，这里 $\sum$ 是一个实对角矩阵，其对角线上的元素是 $S_{w}$ 的奇异值，再求解，得出 $S_{w}^{-1}=V \sum^{-1} U^{-1}$ 。

LDA推广到多分类

将 $LDA$ 推广到多分类问题中，假定存在 $N$ 类，且第 $i$ 类示例数为 $m_{i}$ 。定义“全局散度矩阵” $S_{t}$ ：

$S_{t}=S_{b}+S_{w} \\ = \sum_{i=1}^{m}(x_{i}-\mu)(x_{i}-\mu)^{T}$

$\mu$ 是所有样本的均值向量。

将类内散度矩阵 $S_{w}$ 重定义为每个类别的散度矩阵之和：

$S_{w}=\sum_{i=1}^{N}S_{w_{i}}$

其中：

$S_{w_{i}}=\sum_{x \in X_{i}}(x-\mu_{i})(x-\mu_{i})^{T}$

由此可求解出 $S_{b}$ ：

$S_{b}=S_{t}-S_{w} \\ = \sum_{i=1}^{N}m_{i}(\mu_{i}-\mu)(\mu_{i}-\mu)$

用 $S_{b}$ ， $S_{w}$ ， $S_{t}$ 三者中的任意两者都能够构造优化目标。常见的一种构造如下所示：

$max_{W}\frac{tr(W^{T}S_{b}W)}{tr(W^{T}S_{w}W)}$

其中 $W \in R^{d \times (N-1)}$ ， $tr(·)$ 表示矩阵的迹(trace)。上式通过广义特征值问题求解：

$S_{b}W=\lambda S_{w}W$

$W$ 的闭式解为 $S_{w}^{-1}S_{b}$ 的 $d^{'}$ 个最大广义特征值所对应的特征向量组成的矩阵， $d^{'} \leq N-1$ 。

若将 $W$ 视为一个投影矩阵，则多分类 $LDA$ 将样本投影到 $d^{'}$ 维空间， $d^{'}$ 通常小于原有属性数 $d$ 。于是，可通过这个投影来减少样本点的维数，且投影过程中使用了类别信息，因此 $LDA$ 也常被视为经典的监督降维技术。

与PCA降维不同LDA降维会保留类的区分信息。在LDA二分类中，第一类的均值与第二类的均值如果重叠在一起，将会找不到投影方向。PCA与LDA并没有某一种比另外一种更好的这种说法。

本文主要参考书目，周志华机器学习。以前都没发现这书居然写地这么好。emmmm。

我的微信公众号名称：深度学习与先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！

LDA和PCA降维总结
线性判别分析（LDA） LDA思想总结线性判别分析（Linear Discriminant Analys...
经典机器学习系列之【线性判别分析LDA】
线性判别分析，英文名称Linear Discriminant Analysis(LDA)是一种经典的线性学习方...
机器学习之逻辑回归(2)
接机器学习之逻辑回归(1)，尝试判别分析和多元自适应回归样条方法对数据集的预测能力。线性判别分析即LDA，可通过M...
LDA线性判别分析与PCA降维的区别
LDA线性判别分析线性判别分析(Linear Discriminant Analysis，LDA)是一种有监督学...
机器学习day12线性判别分析
线性判别分析线性判别分析（Linear Discriminant Analysis，LDA）是一种监督学习算法，...
Spark 分布式实现线性判别分析（二分类问题）
Spark 分布式实现线性判别分析（二分类问题）线性判别分析（LDA）线性判别分析(linear discri...
线性判别分析
线性判别分析（Linear Discriminant Analysis）简称LDA，是一种监督学习方法。LDA是在...
机器学习入门——线性模型（2）线性判别分析
线性判别分析（简称LDA），最早由Fisher提出，也叫Fisher判别分析。 LDA 的思想非常朴素: 给定训练...
线性判别分析（LDA）
线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的有监督数据降维方法...
机器学习-线性判别分析LDA
判别分析方法是对后验概率进行估计的判别模型方法。如果样本属于某个类的条件概率密度符合高斯分布，对于贝叶斯分类器[h...