一 数据整理介绍
- 数据探索和清洗只是做初步的数据处理,提高了数据质量问题,然而如果真正做到可分析的数据,需要将数据进一步的整理。
- 数据整理的目的,是从数据的准确性、完整性和一致性、有效性和适时性、唯一性等方面做数据的处理,解决数据的异常问题。
- 通常数据整理会借助数理统计或者数据挖掘的方法,按照实际的需求分析目的,将处理好的数据,进行进一步的转化,进而满足数据分析要求的数据。
- 数据整理的方式一般有两种,数据规范化、数据规约、数据集成三种方式。
二 数据规范化
- 数据规范化,是指将所有数据规范到相似范围的一种方法,这种方式可以去除数据量纲和数据大小的差异,减少不同量纲对数据结构的影响,确保数据是在同一量纲或者同一数量级下进行比较。
- 确保数值较大的数据不会占据较大的权重,使得不同变量间进行公平的比较,使得统计分析变得更加容易。
- 数据规范化的方式一般有数据的中心化、数据的标准化、0-1标准化
数据的中心化:即指数据集的各项数据减去数据集的中心值,中心就是平均值
数据的标准化:指基于中心化的步骤后,再除以数据集的标准差
0-1标准化:是指将数据和最小值作差,并将作差结果和最大值与最小值差的结果做商,即(数值-极小值)/(极大值-极小值)。这种方法存在风险,即当有新数据加入时,可能会导致最大值最小值发生变化,需要重新计算
三 数据规约
- 数据规约是指在尽可能保持数据完整性的基础上,减少数据的属性或者维度的个数,其目的是为了压缩数据量,减少数据分析所需要的时间和资源消耗,同时也会产生相同的数据分析结果。
- 规约是指通过减少属性的方式压缩数据量,这些属性一般是不相关的属性,同时移除不影响模型分析的效率。
- 数据规约的方法,一般有变量规约、数值规约和数据压缩
3.1 变量规约
变量规约是指通过减少变量属性的个数来减少数据量。一般考虑的方法包括小波变换、主成分分析,如果对业务比较熟悉,也可手工选择属性,进行人为删除。
手工减少变量属性的方式可以参考以下:
- 变量合并:将不重要的变量合并一起得到新的变量
- 逐步向前选择:从一个空变量集开始,每次原来变量集合中选择一个当前最优的变量添加到新的变量子集>中,知道无法选到最优变量或满足一定阈值约束为止结束。
- 逐步向后删除:从一个全变量集开始,每次从当前变量子集中选择一个当前最差的变量并将其从当前变量子集中剔除,知道无法选择最差变量为止,或者满足一定阈值约束为止。
- 决策树规约:对初始数据进行分类归纳学习,获取一个初始决策树,决策树上没有出现的变量可认为无关变量,直接剔除,则可获得一个变量子集。
小波变换:是一种新的变换分析方法,它继承了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,一般用于信号视频分析和处理。具体原理和方法这里不做赘述。
主成分分析:一般用于高维数据集合的探索,通过搜索N维正交变量,实现数据的降维。PAC主成分分析一般用于数据压缩和预处理等领域,进而减少数据的冗余和噪音。
3.2 数值规约
通过较少的数据来存储原始数据,这些数据不一定在系统存储,而是通过相关模型和对应模型的参数保存来实现,例如线性回归或者对数线性回归模型。
进行模型的拟合,需要考虑模型的拟合度和复杂度评价,可以参考AIC准则,其计算公式为
AIC=2In(L)+2k
其中L为似然函数,代表模型精确度,k为参数的数量,表示着模型的准确性,当L越大,模型拟合越精确,k越小,说明模型越简洁。一般AIC取值越小,模型即为最优。
如果当前模型是无参数的,需要考虑存放实际的数据,比如使用直方图、聚类、抽样等方式。
3.3数据压缩
即将原始的数据进行压缩,压缩后的数据基本进行了重构了,但是对应储存的信息并未损失,举例小波变换就是一种分析方式。
四 数据集成
- 数据集成是将多个数据源合并到一个数据集的过程
- 通常用于改善数据的外观或者用于一些数据统计分析前的整体数据统一和组织方式规范
- 常见的数据集成方式包括:数据堆叠,数据合并和数据拼接、向量化重构数据
4.1数据堆叠
即将两个不同数据集验证新的维度进行拼接,用于将多个数据集中的相同维度进行堆叠,生成新的数据,可以理解为新增数据记录到现有数据记录中
4.2数据合并
将两个不同数据集中的相同特征合并,通过两个数据集的相同特征映射合并,简单理解基于现有数据集和另一个数据集取交集
4.3数据拼接
将两个不同的数据集沿着同一个维度进行拼接,用于多个数据集不同特征进行拼接,即基于现有数据集新增属性值。新增的数据列,可以基于本身做自反连接,也可以通过相关函数进行操作,产生新的属性列,也可以通过和新的数据集合做join拼接。
4.4向量化重构
把当前数据集全部向量化,按照要求用向量构建其他类型的数据。转化为向量化后的数据,可以基于现有数据分析的函数,方便数据参数传递和数据分析。
网友评论