LDA理论
- 假设我们有m维样例
- 我们寻求一个标量y通过映射样本集x到一条线上
- maximize样本类型分开的line
- 各个类型的点求他们的“均值点”
- 比如有A类型的 (1,2,3)(3,4,5) 那么μ=(2,3,4)
- 我们参考他们均值点投影之后的距离
- 只考虑之前J(ω)不行
-
样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(ω),但是由于有重叠,x1不能分离样本点。投影到纵轴x2上,虽然J(ω)较小,但是能够分离样本点。因此我们还需要考虑样本点之间的方差,方差越大,样本点越难以分离。
- 我们使用另外一个度量值,称作散列值(scatter),对投影后的类求散列值
-
不同类别的样本点越分开越好,同类的越聚集越好,也就是均值差越大越好,散列值越小越好。正好,我们可以使用J(w)和S来度量
- 定义中间部分,就是去掉ω的转置
- 这个式子其实就是某种意义的方差,协方差
网友评论