1.数据规约
即数据精简,包括属性规约(行)和数值规约(列)。
2.降维
(1)定义:降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,对数据进行预处理的一种方法。
(2)优点:①使得数据集更易使用;
②降低算法的计算开销;
③去除噪声;
④使得结果容易理解。
(3)降维的算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)等。
3.主成份分析PCA算法
(1)主要思想:PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
(2)步骤:
>一行为一个特征,对每个特征求平均值,用原来的数据减去每个特征的平均值,得到新的中心化之后的数据;
>求特征协方差矩阵;
>根据协方差矩阵,求特征值和特征向量;
>对特征值按照降序顺序排列,相应的也给出特征向量,选择几个主成分,求投影矩阵。
>根据投影矩阵求出我们降维后的数据。
(3)优点:①仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
②各主成分之间正交,可消除原始数据成分间的相互影响的因素。
③计算方法简单,主要运算是特征值分解,易于实现。
(4)缺点:①主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
②方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。
(5)实例:

网友评论