在我们数据挖掘的任务中,数据往往拥有非常多的纬度。这些过多的维度,往往给数据挖掘的任务带来困难。本小节以PCA算法为例来讲解降维的主要算法思想和算法流程。降维算法不仅可以为计算机减少大量的数据运算,简化数据,也可以去除噪声,使数据集更易使用。PCA为最常用的降维算法之一。广泛应用于数据压缩,图像压缩,信息压缩等领域。
PCA全称Principal Component Analysis,即主成分分析,它可以通过线性变换将原始数据变换为一组各维度线性无关的基来表示,以此来提取数据的主要线性分量。
对于非技术同学可能看到PCA的定义会一脸懵逼。我们还是用通俗的话解释下:
也就是说,我们要找出一组正交基,使原数据变换到这组正交基后,数据属性方差最大。就这么简单。
这里说明下为什么需要方差最大。方差越大,说明数据越分散。通常认为,数据的某个特征维度上数据越分散,该特征信息量越大,熵越大。(数据的无序也在一定程度上反应了数据的主要成分)。我们都知道矩阵的乘法,实际就是用左边的矩阵对右边的向量做线性变换。其实也就是对原矩阵的基做旋转和拉伸变换。那么,我们只要找到这个变换矩阵,然后用变换矩阵乘以原数据,则乘的结果就是我们降维后的数据了。这里的分母应为m-1.
这里首先说明下方差的定义:
image.png
由于实际的计算过程中,我们通常会对数据做归一化操作,因此方差可以直接表示为:
image.png
同理的数据归一化后,协方差的定义为:
image.png
这里我们举一个实例:
假设我们有一组个二维的数据,
image.png
则该组二维数据对应的协方差矩阵为:
image.png
我们知道,最终我们要找的是使方差最大的线性变换对应的一组正交基。通过协方差矩阵可以看出。要使这个这组基互相正交,则协方差矩阵的协方差项需要全为0,即对协方差矩阵进行对角化操作。
这里也可以采用知乎上的一个证明思路:
image.png
最终推出,求正交基的过程,即是原矩阵协方差矩阵对角化的过程。
由于协方差矩阵是一个标准的对称矩阵,根据对阵矩阵的定理:
其中,拉姆达为A矩阵的特征向量所对应的特征值。
image.png
也就说,我们只要求出协方差矩阵对应的特征值和特征向量。就可以把协方差矩阵对角化,得到对应的对角化矩阵。
1.而这个对角化矩阵的协方差项都为0,即满足了正交基。
2.我们对特征值排序,降维时,保留大的特征值。即满足了最大方差。
假设我们此时降维为k,则保留前k个特征向量(归一化),则这前K个特征向量对应的线性变换,即为PCA降维对应的线性变换矩阵。 至此,PCA算法的整个算法过程结束。
我们在此总结一下这个看似复杂的过程:以降维到K个维度为例
1.将原始数据的每个属性做均值归一化。
2.求出原矩阵对应的协方差矩阵。
3.求出协方差矩阵对应的特征值和特征向量。
4.将特征向量归一化后按对特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P。
5.矩阵P对数据做线性变换的结果,即为降维后的数据。
关于矩阵特征向量的求解,请参考线性代数教材。
非技术的同学读到这里应该有所理解。如果实在有疑问可以记住上面pca运算的过程,或者评论提问。
按照惯例,接下来我会用代码来演示下pca的简单使用。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.decomposition import PCA
from sklearn.datasets.samples_generator import make_blobs
# X为样本特征,Y为样本簇类别, 共1000个样本,每个样本3个特征,共4个簇
X, y = make_blobs(n_samples=10000, n_features=3, centers=[[3,3, 3], [0,0,0], [1,1,1], [2,2,2]], cluster_std=[0.2, 0.1, 0.2, 0.2],
random_state =9)
fig = plt.figure()
ax = Axes3D(fig, rect=[0, 0, 1, 1], elev=30, azim=20)
plt.scatter(X[:, 0], X[:, 1], X[:, 2],marker='o')
plt.show()
pca = PCA(n_components=2)
pca.fit(X)
print(pca.explained_variance_ratio_)
print(pca.explained_variance_)
# pca = PCA(n_components=0.95)
# pca.fit(X)
X_new = pca.transform(X)
plt.scatter(X_new[:, 0], X_new[:, 1],marker='o')
plt.show()
这里我截出代码运行的截图,这里以2维为例:
降维前:
image.png
降维后:
image.png
pca算法的核心思想介绍就到这里。如果问题欢迎评论与我讨论。
网友评论