步骤:
1、对原始d维数据集做标准化处理
2、构造样本的方差矩阵
3、计算协方差矩阵的特征值和相应的特征向量
4、选择与前k个最大特征值对应的特征向量,其中k为新特征空间的维度,k<d
5、通过前k个特征向量构建映射矩阵W
6、通过映射矩阵W将d维的输入数据集X转换到新的k维特征子空间
核心算法
from sklearn.decomposition import PCA
pca = PCA(5) #将原始数据降到5维,从特征重要性中选取前5个特征
pca.fit(X)
X = pca.transform(X) #降维后的数据
PCA算法的核心思想是线性变换,一般情况下用在数据降维,它并不是去掉其中比较不重要的特征,而是将所有的特征通过线性变换,变换到其他维度较低的多维空间。
网友评论