降维,即用一个低纬度得向量表示原始高纬度的特征。在机器学习中,数据通常需要被表示成向量形式以输入模型进行训练,其中,对多维向量进行处理和分析时,会极大地损耗系统资源,甚至产生维度灾难。这边主要介绍主成分分析(PCA)和线性判别分析(LDA)。
1、主成分分析(PCA)
PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。
以下是几种PCA的求解方法:
(1)对样本数据进行中心化处理。
(2)求样本协方差矩阵。
(3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
(4)取特征值前d大对应的特征向量,通过映射到高维度。
PCA是一种线性降维方法,虽然经典,但具有一定的局限性。
2、线性判别分析(LDA)
相对于PCA,LDA可以作为一种有监督的降维算法。在PCA中,算法中没有考虑数据的标签(类别),只是把原始数据映射到一些方差比较大的方向上而已。
LDA首先是为了分类服务的,因此只要找到一个投影方向w,使得投影后的样本尽可能按照原始类别分类。LDA的中心思想,最大化类间距离和最小化类内距离。
3、PCA和LDA的联系与差别
同样作为线性降维方法,PCA是非监督的降维算法,而LDA是有监督的降维算法。
网友评论