美文网首页Cook RR语言与统计分析
统计学习 - Linear Discriminant Analy

统计学习 - Linear Discriminant Analy

作者: Allen_9820 | 来源:发表于2019-12-31 16:28 被阅读0次

本文主要分为三个部分:

  1. LDA背景
  2. 一维情形的LDA
  3. 高维情形的LDA

(1)提出LDA的背景

  • 当类别分的比较开的时候,logistic regression的参数估计很不稳定,但LDA不存在这个问题。
  • 当样本量n很小并且自变量X在每一类中(近似)服从正态分布的时候,LDA也会比logistic regression稳定得多。
  • 当多分类问题时,LDA比logistic regression更popular(because it also provides low-dimensional views of the data).

(2)贝叶斯定理

  • 贝叶斯公式:

\operatorname{Pr}(Y=k | X=x)=\frac{\operatorname{Pr}(X=x | Y=k) \cdot \operatorname{Pr}(Y=k)}{\operatorname{Pr}(X=x)}

  • 对于混合模型:

\operatorname{Pr}(Y=k | X=x)=\frac{\pi_{k} f_{k}(x)}{\sum_{l=1}^{K} \pi_{l} f_{l}(x)}

其中,f_{k}(x)=\operatorname{Pr}(X=x | Y=k)是第k类中的X的密度函数,假设每一类中都满足正态分布,\pi_{k}=\operatorname{Pr}(Y=k)是第k类的边际概率(先验)。

(3)LDA的思路推理

  • 从一维的开始:

假设第k类的密度函数为:
f_{k}(x)=\frac{1}{\sqrt{2 \pi} \sigma_{k}} e^{-\frac{1}{2}\left(\frac{x-\mu_{k}}{\sigma_{k}}\right)^{2}}
其中\mu_k,\sigma_k^2分别是第k类的均值和方差,在LDA中,我们假设所有K个类的方差是相等的,即\sigma_1=\sigma_2=\cdots=\sigma_K=\sigma.

可以计算第k类的后验概率
p_{k}(x)=\frac{\pi_{k} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu_{k}}{\sigma}\right)^{2}}}{\sum_{l=1}^{K} \pi_{l} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu_{l}}{\sigma}\right)^{2}}}
很简单,我们会将样本x归为K个后验概率最大的类,即
\begin{align}&\max_{(\pi_k,\mu_k)\in\{(\pi_l,\mu_l)\}_1^K}\frac{\pi_{k} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu_{k}}{\sigma}\right)^{2}}}{\sum_{l=1}^{K} \pi_{l} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu_{l}}{\sigma}\right)^{2}}}\\\Leftrightarrow &\max_{(\pi_k,\mu_k)\in\{(\pi_l,\mu_l)\}_1^K}\pi_{k} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu_{k}}{\sigma}\right)^{2}}\\\Leftrightarrow &\max_{(\pi_k,\mu_k)\in\{(\pi_l,\mu_l)\}_1^K} \log\left[\pi_{k} e^{-\frac{1}{2}\left(\frac{x-\mu_{k}}{\sigma}\right)^{2}}\right]\\\Leftrightarrow &\max_{(\pi_k,\mu_k)\in\{(\pi_l,\mu_l)\}_1^K} \log \pi_{k} -\frac{1}{2}\left(\frac{x^2-2x\mu_k+\mu_{k}^2}{\sigma^2}\right)\\\Leftrightarrow &\max_{(\pi_k,\mu_k)\in\{(\pi_l,\mu_l)\}_1^K} \log \pi_{k} +\frac{x}{\sigma^2}\mu_k-\frac{1}{2\sigma^2}\mu_k^2\\\end{align}
定义:\delta_k(x)=\log \pi_{k} +\frac{x}{\sigma^2}\mu_k-\frac{1}{2\sigma^2}\mu_k^2. 则最大化后验概率与最大化\delta_k(x)等价。观察\delta_k(x)的形式,他是关于x的一个一次函数,这也就是为什么这个方法叫做Linear Discriminant Analysis的原因。

接下来求决策边界(decision boundary),决策边界,顾名思义,在这条分界线上,无法准确给出明确的判断,因此有\delta_k(x)=\delta_i(x). 样本x对于第k类与第i类的后验概率相等。根据这个性质,我们将这样的x求解出来,也就得到了k,i两类的决策边界。
\delta_k(x)=\delta_i(x)\\\Leftrightarrow \log \pi_{k} +\frac{x}{\sigma^2}\mu_k-\frac{1}{2\sigma^2}\mu_k^2=\log \pi_{i} +\frac{x}{\sigma^2}\mu_i-\frac{1}{2\sigma^2}\mu_i^2\\\Leftrightarrow x(\frac{\mu_k-\mu_i}{\sigma^2})=\frac{1}{2\sigma^2}(\mu_k^2-\mu_i^2)+\log \pi_{i}-\log \pi_{k} \\\Leftrightarrow x=\frac{\mu_k+\mu_i}{2}+\frac{\sigma^2(\log \pi_{i}-\log \pi_{k})}{\mu_k-\mu_i}

  • 继续推广到多维:

\text { Density: } f_k(\boldsymbol{x})=\frac{1}{(2 \pi)^{p / 2}|\mathbf{\Sigma}|^{1 / 2}} e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^{T} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k)}

同一维的情形,找到最大后验概率:
\begin{aligned}\max_{k\in\{1,\ldots,K\}}p_k(\boldsymbol{x}) &\Leftrightarrow \max_{k\in\{1,\ldots,K\}} \pi_{k} \frac{1}{(2 \pi)^{p / 2}|\mathbf{\Sigma}|^{1 / 2}} e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^{T} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k)}\\&\Leftrightarrow \max_{k\in\{1,\ldots,K\}} \log\left(\pi_{k} \frac{1}{(2 \pi)^{p / 2}|\mathbf{\Sigma}|^{1 / 2}} e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^{T} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k)}\right)\\&=\max_{k\in\{1,\ldots,K\}}\left[ \log(\pi_{k})-\log\left((2 \pi)^{p / 2}|\mathbf{\Sigma}|^{1 / 2}\right)-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^{T} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k)\right]\\&\Leftrightarrow \max_{k\in\{1,\ldots,K\}} \left[ \log(\pi_{k})-\frac{1}{2}\boldsymbol{x}^{T} \mathbf{\Sigma}^{-1}\boldsymbol{x}+\boldsymbol{x}^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k-\frac{1}{2}\boldsymbol{\mu}_k^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k\right]\\&\Leftrightarrow \max_{k\in\{1,\ldots,K\}} \left[\boldsymbol{x}^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k-\frac{1}{2}\boldsymbol{\mu}_k^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k+\log(\pi_{k})\right]\\\text{i.e. }\delta_k(\boldsymbol{x})&=\boldsymbol{x}^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k-\frac{1}{2}\boldsymbol{\mu}_k^{T} \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k+\log(\pi_{k})\end{aligned}
同样,这里的\delta_k(\boldsymbol{x})是一个关于\boldsymbol{x}线性函数。如果令\delta_k(\boldsymbol{x})=\delta_i(\boldsymbol{x}),可以找到(线性)决策边界。

相关文章

网友评论

    本文标题:统计学习 - Linear Discriminant Analy

    本文链接:https://www.haomeiwen.com/subject/yptioctx.html