LDA是一个分类模型,可以处理多category的问题。
模型是: (*),即在知道x值的情况下,属于k类的可能性,选择最大的
作为点x的类。其中
。这个模型基于的统计理念非常常见,就是先验概率和后验概率用全概率公式和Bayes定理互相推导。
(*) 中对所有k来说都一样,所以选择的重点在于
。
如果我们假设是一个multivariate Gaussian,且对于所有k类,方差相同
,则
,
如果,那就把点分到class 1

如果

确定了模型之后,进行参数估计,有最大似然估计可得
- 总共需要估计(K-1)*(p+1)个参数
这个模型跟适用于large and diverse set。
Discriminant Analysis最核心的点是假定k类有k个不同的distribution,然后计算在已知k的情况下,对于待分类点x计算条件概率(Bayes Rule),然后选出条件概率最高的那一个类。
所以这个模型有很多的变通之处,例如,我们一定要假定正态分布吗?不一定,之所以倾向多维正态的原因是针对线性/Quadratic的决策边界,正态的结果会更稳定,但其实是可以选择别的分布假设的。
- 优化
- Regularized Discriminant Analysis:
is the pooled covariance matrix as used in LDA, 这样的话通过引入
来实现LDA和QDA的转化,
由CV来决定
网友评论