一. 什么是降维:有效信息的收集,无效信息的剔除
假如我们有1000个基因,想在坐标系中表现出来,就需要1000个维度。然而事实上我们不可能画那么多维度,这就需要降维了
image.png二. 什么是LDA:
- LDA很像PCA,但是他致力于将已知种类的最大化分离
- 监督学习,每个样本是有类别的输出
- 在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优
- LDA不适合对非高斯分布样本进行降维
- 降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA
三. LDA的原理是什么:
1. 画出一条新的坐标轴,将样本点映射到坐标轴上
image.png image.png2. 让样本间的平均值差尽可能大,方差和尽可能小。就会避免图2中的情况
也就是说,样本离远一点,波动小一点
image.png image.png
3. 三个以上样本量,先找到一个中心点,再分割平面,最后变成n-1维度
image.png四. PCA与LDA熟好熟坏?:不能一概而论
-
当样本信息依赖均值时,LDA更好
image.png -
当样本信息依赖方差时,PCA更好
部分图出自CSDN博客:https://www.cnblogs.com/pinard/p/6244265.html
网友评论