美文网首页
[ISL C4] Classification

[ISL C4] Classification

作者: 数科每日 | 来源:发表于2021-02-18 21:49 被阅读0次

4.4 Linear Discriminant Analysis

LDA由下面公式推导出来
f_{k}(x) \equiv \operatorname{Pr}(X=x \mid Y=k)

  • kY有几种类型
  • f_{k}(x) :当y=k 时,X是当前 observation 的概率
    可以预见, 对于一个 observation , 当Y=kX\approx xf_{k}(x) 值就会高, 相反就是低。

f_{k}(x) 适用 Bayesian 公式得到

\operatorname{Pr}(Y=k \mid X=x)=\frac{\pi_{k} f_{k}(x)}{\sum_{l=1}^{K} \pi_{l} f_{l}(x)}

  • \pi_{k} k 出现的概率, 就是P(Y=k)(所有记录中,k类别的比例)
  • 公式分母来源于对 P(X=x) 的拆解, 本来分母应该是 P(X=x)

P(X=x) = \sum_{l=1}^{K}P(X=x|Y=l)P(Y=l) = \sum_{l=1}^{K} \pi_{l} f_{l}(x)

LDA 要求 Feature 正态分布, 而且方差相同(太苛刻)

image.png

4.5 A Comparison of Classification Methods

比较四种Classification 方法

  • Logistic Regression
  • LDA
  • QDA
  • KNN

Logistic Regression 和 LDA 很像

  • Linear Discriminate Analysis
    \log \left(\frac{p_{1}(x)}{1-p_{1}(x)}\right)=\log \left(\frac{p_{1}(x)}{p_{2}(x)}\right)=c_{0}+c_{1} x

  • c_{0}, c_{1} 来自于正态分布的均值,方差

  • Logistic Regression
    \log \left(\frac{p_{1}}{1-p_{1}}\right)=\beta_{0}+\beta_{1} x

  • \beta_{0}, \beta_{1} 来自于极大似然估计

  • LDA 的假设所有 feture 都是正态分布,而且方差相同。如果恰巧如此, LDA表现最好。

  • Logistic Regression (LR): 只要求Feature 线性关系, 如果feture 不是正态分布,且同方差, LR 比LDA好。

  • KNN : 对数据完全没要求, 当Decision Boundary 及其崎岖的时候, 表现最好。

  • QDA : 允许有 Quadratic 的Decision Boundary, 所以可以处理一定程度上的非线性关系。 适应领域介于 LDA 和 KNN 之间 (完全线性与完全非线性之间)。

image.png

在6种环境下, 几个模型的不同表现

  • KNN-CV : KNN, K值由 Cross Validation 选择出
  • LDA 和 Logistics Regression 通常表现类似

没有任何一种模型能在所有情况下适用

相关文章

网友评论

      本文标题:[ISL C4] Classification

      本文链接:https://www.haomeiwen.com/subject/hovnxltx.html