美文网首页
数据整理

数据整理

作者: 八克牙 | 来源:发表于2023-10-05 17:45 被阅读0次

一 数据整理介绍

  • 数据探索和清洗只是做初步的数据处理,提高了数据质量问题,然而如果真正做到可分析的数据,需要将数据进一步的整理。
  • 数据整理的目的,是从数据的准确性、完整性和一致性、有效性和适时性、唯一性等方面做数据的处理,解决数据的异常问题。
  • 通常数据整理会借助数理统计或者数据挖掘的方法,按照实际的需求分析目的,将处理好的数据,进行进一步的转化,进而满足数据分析要求的数据。
  • 数据整理的方式一般有两种,数据规范化、数据规约、数据集成三种方式。

二 数据规范化

  • 数据规范化,是指将所有数据规范到相似范围的一种方法,这种方式可以去除数据量纲和数据大小的差异,减少不同量纲对数据结构的影响,确保数据是在同一量纲或者同一数量级下进行比较。
  • 确保数值较大的数据不会占据较大的权重,使得不同变量间进行公平的比较,使得统计分析变得更加容易。
  • 数据规范化的方式一般有数据的中心化、数据的标准化、0-1标准化

数据的中心化:即指数据集的各项数据减去数据集的中心值,中心就是平均值
数据的标准化:指基于中心化的步骤后,再除以数据集的标准差
0-1标准化:是指将数据和最小值作差,并将作差结果和最大值与最小值差的结果做商,即(数值-极小值)/(极大值-极小值)。这种方法存在风险,即当有新数据加入时,可能会导致最大值最小值发生变化,需要重新计算

三 数据规约

  • 数据规约是指在尽可能保持数据完整性的基础上,减少数据的属性或者维度的个数,其目的是为了压缩数据量,减少数据分析所需要的时间和资源消耗,同时也会产生相同的数据分析结果。
  • 规约是指通过减少属性的方式压缩数据量,这些属性一般是不相关的属性,同时移除不影响模型分析的效率。
  • 数据规约的方法,一般有变量规约、数值规约和数据压缩

3.1 变量规约

变量规约是指通过减少变量属性的个数来减少数据量。一般考虑的方法包括小波变换、主成分分析,如果对业务比较熟悉,也可手工选择属性,进行人为删除。

手工减少变量属性的方式可以参考以下:

  • 变量合并:将不重要的变量合并一起得到新的变量
  • 逐步向前选择:从一个空变量集开始,每次原来变量集合中选择一个当前最优的变量添加到新的变量子集>中,知道无法选到最优变量或满足一定阈值约束为止结束。
  • 逐步向后删除:从一个全变量集开始,每次从当前变量子集中选择一个当前最差的变量并将其从当前变量子集中剔除,知道无法选择最差变量为止,或者满足一定阈值约束为止。
  • 决策树规约:对初始数据进行分类归纳学习,获取一个初始决策树,决策树上没有出现的变量可认为无关变量,直接剔除,则可获得一个变量子集。

小波变换:是一种新的变换分析方法,它继承了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,一般用于信号视频分析和处理。具体原理和方法这里不做赘述。
主成分分析:一般用于高维数据集合的探索,通过搜索N维正交变量,实现数据的降维。PAC主成分分析一般用于数据压缩和预处理等领域,进而减少数据的冗余和噪音。

3.2 数值规约

通过较少的数据来存储原始数据,这些数据不一定在系统存储,而是通过相关模型和对应模型的参数保存来实现,例如线性回归或者对数线性回归模型。

进行模型的拟合,需要考虑模型的拟合度和复杂度评价,可以参考AIC准则,其计算公式为
AIC=2In(L)+2k
其中L为似然函数,代表模型精确度,k为参数的数量,表示着模型的准确性,当L越大,模型拟合越精确,k越小,说明模型越简洁。一般AIC取值越小,模型即为最优。

如果当前模型是无参数的,需要考虑存放实际的数据,比如使用直方图、聚类、抽样等方式。

3.3数据压缩

即将原始的数据进行压缩,压缩后的数据基本进行了重构了,但是对应储存的信息并未损失,举例小波变换就是一种分析方式。

四 数据集成

  • 数据集成是将多个数据源合并到一个数据集的过程
  • 通常用于改善数据的外观或者用于一些数据统计分析前的整体数据统一和组织方式规范
  • 常见的数据集成方式包括:数据堆叠,数据合并和数据拼接、向量化重构数据

4.1数据堆叠

即将两个不同数据集验证新的维度进行拼接,用于将多个数据集中的相同维度进行堆叠,生成新的数据,可以理解为新增数据记录到现有数据记录中

4.2数据合并

将两个不同数据集中的相同特征合并,通过两个数据集的相同特征映射合并,简单理解基于现有数据集和另一个数据集取交集

4.3数据拼接

将两个不同的数据集沿着同一个维度进行拼接,用于多个数据集不同特征进行拼接,即基于现有数据集新增属性值。新增的数据列,可以基于本身做自反连接,也可以通过相关函数进行操作,产生新的属性列,也可以通过和新的数据集合做join拼接。

4.4向量化重构

把当前数据集全部向量化,按照要求用向量构建其他类型的数据。转化为向量化后的数据,可以基于现有数据分析的函数,方便数据参数传递和数据分析。

相关文章

  • 整理数据

    2号晚上开始下载数据,一天整理一年的日照时数。加油(ง •̀_•́)ง

  • 数据整理

    1 tidyverse系统 https://www.math.pku.edu.cn/teachers/lidf/d...

  • 整理数据

    前面说了怎么找数据这一块。 两个方面的,如果从其他人那里拿的话,就不存在数据整理,直接拿来打电话就行了。 但是如果...

  • 整理数据

    本来手里就三五份数据,突然这个给了五份,那个给了三份,他个再给了五份……一下子累积了几十份。一堆的数据。 于是大工...

  • 数据整理

    ema对应 ema 2 2 ema 2 3 ema 3 3 ema 5 tvr: 37.32 ema 2 5 em...

  • 数据处理工作经验总结

    审计工作常常用到数据整理,数据处理,数据分析,数据录入,数据导出。 当你需要数据录入工作,数据整理,数据处理,数据...

  • 继续努力加油

    今天加班整理数据,感觉已经整理了一个多小时还没有整理完,接着周一继续整理咯! 只能如此,现在整理数据太难了,思考太...

  • Excel教程:怎样快速整理数据?

    不知道大家平时整理数据是使用什么样的方法,我经常需要整理一些网络数据,网络数据整理一直是个难题,导出的网络数据要不...

  • ICON数据整理

    接触ICX是从去年底的牛市开始的,此项目当时头顶“韩国以太坊”、“韩国第一公链”等头衔,加上韩国人“全民炒币”的超...

  • 数据运营整理

    什么是数据运营,数据运营是做什么的?作用是什么?为哪些工作提供了那些支持?怎么做的?有什么技巧? 看数据、分析数据...

网友评论

      本文标题:数据整理

      本文链接:https://www.haomeiwen.com/subject/drnubdtx.html