美文网首页
[分类] Linear Discriminant Analysi

[分类] Linear Discriminant Analysi

作者: 数据麻瓜 | 来源:发表于2018-11-09 01:32 被阅读0次

    LDA是一个分类模型,可以处理多category的问题。
    模型是: P(G=k|X=x)=\frac{f_k(x)\pi_k}{\sum_{l=1}^K f_l(x)\pi_l} (*),即在知道x值的情况下,属于k类的可能性,选择最大的P_k作为点x的类。其中f_k(x)=P(X=x|G=k),\pi_k=P(G=k),\sum_{k=1}^K \pi_k=1。这个模型基于的统计理念非常常见,就是先验概率和后验概率用全概率公式和Bayes定理互相推导。
    (*) 中\sum_{l=1}^K f_l(x)\pi_l对所有k来说都一样,所以选择的重点在于f_k(x)\pi_k

    如果我们假设f_k(x)是一个multivariate Gaussian,且对于所有k类,方差相同\Sigma_k=\Sigma,则f_k(x)=\frac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}}e^{-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k)},\delta_k(x)=log(f_k(x)\pi_k)=C+x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+log(\pi_k)
    如果\delta_1(x) >\delta_2(x),那就把点分到class 1

    edx-Machine Learning-Wk3
    如果 edx-Machine Learning-Wk3

    确定了模型之后,进行参数估计,有最大似然估计可得

    • \hat{\pi}_k=N_k/N
    • \hat{\mu}_k=\sum_{g_i=k} x_i/N
    • \hat{\Sigma}=\sum_{k=1}^K\sum_{g_i=k}(x_i-\hat{\mu}_k)(x_i-\hat{\mu}_k)^T/(N-K)
    • 总共需要估计(K-1)*(p+1)个参数

    这个模型跟适用于large and diverse set。

    Discriminant Analysis最核心的点是假定k类有k个不同的distribution,然后计算在已知k的情况下,对于待分类点x计算条件概率(Bayes Rule),然后选出条件概率最高的那一个类。

    所以这个模型有很多的变通之处,例如,我们一定要假定正态分布吗?不一定,之所以倾向多维正态的原因是针对线性/Quadratic的决策边界,正态的结果会更稳定,但其实是可以选择别的分布假设的。

    1. 优化
    • Regularized Discriminant Analysis:
      \hat{\Sigma}_k(\alpha)=\alpha(\hat{\Sigma}_k)+(1-\alpha)\hat{\Sigma},\hat{\Sigma}is the pooled covariance matrix as used in LDA, 这样的话通过引入\alpha来实现LDA和QDA的转化,\alpha由CV来决定

    相关文章

      网友评论

          本文标题:[分类] Linear Discriminant Analysi

          本文链接:https://www.haomeiwen.com/subject/sttuxqtx.html