美文网首页
PCA要对数据进行预处理的原因

PCA要对数据进行预处理的原因

作者: horu | 来源:发表于2017-01-16 11:18 被阅读1079次

1.将数据进行中心化的原因:

减去均值等同于坐标移动,这样就能把原始数据点的中心移到与原点重合,此举有利于很多表达,比如数据的协方差矩阵可以直接写成X*X',若没有减去均值,则每两个特征之间都要进行(X-X均值)*(Y-Y均值)运算,再组合成协方差矩阵。

2.将数据除以标准差的原因:

除以标准差是为了统一并消除量纲。一个样本中有多个特征,有些可能表示长度,有些可能表示重量。如果各个特征之间的数值或数量级存在较大差异,就会使得较小的数被淹没,导致主成分偏差较大。所以要将每个特征对应的样本除以标准差,这样才能让他们仅以“数的概念一起比较运算”。

简言之---除以标准差的作用:去掉量纲,将不同量纲的数据拉伸至同一水平。公平比较。 

注意两点:

1.标准化与归一化:

上述1,2两步统称为数据的标准化过程----将每个特征(即矩阵的每一列)减去均值并除以标准差。

而数据的归一化仅仅是指除以标准差或类似意思。

2.图像不需要除以标准差,因为他们都是像素值,同量纲同尺度(1~255),所以只减去均值即可。

PCA的深层次解释:

协方差矩阵和主成分分析

m.blog.csdn.net/article/details

浅谈协方差矩阵

pinkyjie.com/2010/08/31/covariance/

与PCA相关的一些概念的集合

blog.csdn.net/viewcode/article/details/8789524

相关文章

  • PCA要对数据进行预处理的原因

    1.将数据进行中心化的原因: 减去均值等同于坐标移动,这样就能把原始数据点的中心移到与原点重合,此举有利于很多表达...

  • PCA算法及相关资料

    1.《机器学习实战》第13章2.特征向量和特征值3.PCA要对数据进行预处理的原因4.协方差与协方差矩阵

  • 数据预处理

    一、引述 低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技...

  • PCA数据降维

    这一节,我们来讨论一个数据预处理的技术PCA,PCA全称:Principal Components Analysi...

  • 第二周 - 20180422

    数据预处理以及Doc2Vec过程 模型训练之前需要对数据进行预处理,毕竟文本信息很难直接用来拟合。除了简单易懂的O...

  • 关于事故发生时间离散化的思考

    在贵阳交通事故致因分析数据大赛中,需要对事故数据进行预处理。 事故数据的预处理涉及到很多内容,事故的发生时间的处理...

  • 算法笔记(13)数据预处理及Python代码实现

    常用数据预处理工具:使用StandardScaler进行数据预处理、使用MinMaxScaler进行数据预处理、使...

  • 投影变换

    当数据的空间参考系统与我们的需求不一致时,就需要对数据进行投影变换操作。有时候也需要对数据进行一些预处理。 1.投...

  • 机器学习笔记5-PCA

    PCA简介 相关背景 在许多领域的研究与应用中,往往需要对供应的多个变量进行大量的采集,收集大量数据以便进行分析但...

  • 预处理(一):主成分分析PCA

    主成分分析(PCA) 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分...

网友评论

      本文标题:PCA要对数据进行预处理的原因

      本文链接:https://www.haomeiwen.com/subject/rtzybttx.html