美文网首页
数据仓库与数据挖掘技术—PCA和DWT

数据仓库与数据挖掘技术—PCA和DWT

作者: 熊猫学猿 | 来源:发表于2022-07-26 06:04 被阅读0次

属性子集选择:

1、逐步向前选择。由空属性集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代步骤中,将剩下的原属性集中最好的属性添加入该集合

2、逐步向后删除。该过程由整个属性集开始。在每一步,删除属性集中最差的属性

3、向前选择和向后删除的结合

4、决策树归纳

维度归约:使用数据编码或变换,以便得到原始数据的归约或“压缩”表示

小波变换(DWT):线性信号处理技术

当用于数据向量X时,将它变换成数值上不同的小波系数向量X’.两个向量具有相同的长度,当这种技术用于数据归约时,每个元祖看做一个n维数据向量X=(x1,x2,…..Xn),用来描述n个数据库在元祖上的n个测量值

小波变换后的数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据

DWT与离散傅里叶变换变换(DFT)有密切关系,DFT是一种涉及正弦和余弦的信号处理技术。DWT是一种更好的有损压缩。对于给定的数据向量,如果DWT和DFT保留相同数目就系数,DWT将提供原始数据的更准确的近似。对于等价的近似,DWT与DFT需要的空间小,不像DFT,小波空间局部性相当好,有助于保留局部细节

主成分析(PCA):搜索k个最能代表数据的n维正交向量,其中k<=n,这样,原来的数据投影到一个小得多的空间,导致维度归约。PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原始数据可以投影到该较小的集合中,PCA常常揭示先前未曾察觉的联系,并因此允许解释不寻常的结果

1、对输入数据规范化,使得每个属性都落入相同的区间。此歩有助于确保具有较大定义域的属性不会支配具有较小定义域的属性。

2、PCA计算k个标准正交向量,作为规范化输入数据的基。这些是单位向量,每一个方向都垂直于另一个。这些向量称为主成分。输入数据是主成分的线形组合。

3、队主成分按“重要性”或强度降序排列,主成分基本上充当数据的新坐标轴,提供关于方差的重要信息。即对坐标轴进行排序,使得第一个坐标轴显示数据的最大方差,第二个显示次大方差,如此下去。

4、主成分根据“重要性”降序排列,则可通过去掉较弱的成分(即方差较小)来归约数据的规模。使用最强的主成分,应当能够重构原数据的很好的近似。

PCA计算开销低,可以用于有序和无序的属性

相关文章

网友评论

      本文标题:数据仓库与数据挖掘技术—PCA和DWT

      本文链接:https://www.haomeiwen.com/subject/dzqgirtx.html