4.4 Linear Discriminant Analysis
LDA由下面公式推导出来
-
:
有几种类型
-
:当
时,
是当前 observation 的概率
可以预见, 对于一个 observation , 当时
,
值就会高, 相反就是低。
对 适用 Bayesian 公式得到
-
k 出现的概率, 就是
(所有记录中,k类别的比例)
- 公式分母来源于对
的拆解, 本来分母应该是
LDA 要求 Feature 正态分布, 而且方差相同(太苛刻)

4.5 A Comparison of Classification Methods
比较四种Classification 方法
- Logistic Regression
- LDA
- QDA
- KNN
Logistic Regression 和 LDA 很像
-
Linear Discriminate Analysis
-
来自于正态分布的均值,方差
-
Logistic Regression
-
来自于极大似然估计
-
LDA 的假设所有 feture 都是正态分布,而且方差相同。如果恰巧如此, LDA表现最好。
-
Logistic Regression (LR): 只要求Feature 线性关系, 如果feture 不是正态分布,且同方差, LR 比LDA好。
-
KNN : 对数据完全没要求, 当Decision Boundary 及其崎岖的时候, 表现最好。
-
QDA : 允许有 Quadratic 的Decision Boundary, 所以可以处理一定程度上的非线性关系。 适应领域介于 LDA 和 KNN 之间 (完全线性与完全非线性之间)。

在6种环境下, 几个模型的不同表现
- KNN-CV : KNN, K值由 Cross Validation 选择出
- LDA 和 Logistics Regression 通常表现类似
没有任何一种模型能在所有情况下适用
网友评论