05-22-S_数据预处理

作者: 冯诺依曼 | 来源:发表于2017-05-22 12:21 被阅读0次

05-22-S_数据预处理
算法笔记（13）数据预处理及Python代码实现
kaggle竞赛：Jigsaw Unintended Bias
1分钟了解数据分析挖掘体系
机器学习笔记
数据挖掘学习笔记一
【代谢组学】代谢组学原始数据的预处理
Python数据挖掘005-数据清洗
R数据分析实战—LOL中游戏时长对双方阵营胜率的影响
es基本分词设置及基本query

数据预处理

数据挖掘是统计学，机器学习，数据库三者的统一。它利用的思想有：

(1)统计学的抽样、估计、假设检验；

(2)人工智能、机器学习的算法、建模技术和理论；

(3)此外需要数据库提供有效的存储、索引、查询等处理支持。

数据挖掘过程中，数据基本来自生产、生活、商业中的实际数据，现实中我们采集到的数据往往存在：不正确、不完整、不一致这三个问题。

数据预处理一般就四种：

缺失值处理

对于缺失值的处理总的来说分删除法和插补法

(1)删除法：删除存在缺失值的记录（仅当样本量很大且缺失值记录所占样本比例小于5%时可行）

(2)插补法：若属性是连续的，则使用该属性存在值的平均值去插补缺失值；若属性是离散的，则可取该属性的众数来插补缺失值。

数据集成

即相当于从原始的ODS中将各个数据表尽量整合成一个一个方便查询的表

数据规约

由于用于分析的数据集中可能包含数以百计的属性，但是其中大部分属性可能与挖掘任务不相关，或者是冗余的，则要尽量挑选出有用的属性，这是一项困难费时的任务。

所以数据规约目标在于找到最小的属性集，使现有概率分布尽可能接近使用所有属性时的原始分布。

数据变换

数据变化是将数据由一种表现形式变为另一种表现形式。常见的数据变换方式是：数据标准化、数据离散化、语义转换。

（1）数据标准化

0-1标准化

线性函数转换：
$$y=\frac{x-min(x)}{max(x)-min(x)}$$

对数函数转换：
$$y=\log_{10}x$$

反正切函数转换：
$$y=\frac{\arctan x *2}{\pi}$$

z-score标准化

$$y=\frac{x-u}{\sigma }$$

（2）离散化

指将连续性数据切分为多个“段”，有些数据挖掘算法要求数据是分类属性的形式。

（3）语义转换

将{非常好，好，一般，差，非常差}这种转化为{1,2,3,4,5}来替代。

参考：http://blog.csdn.net/dkcgx/article/details/46634471

网友评论

本文标题：05-22-S_数据预处理

本文链接：https://www.haomeiwen.com/subject/ozpbxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

05-22-S_数据预处理

数据预处理

数据预处理一般就四种：

缺失值处理

数据集成

数据规约

数据变换

相关文章

05-22-S_数据预处理

算法笔记（13）数据预处理及Python代码实现

kaggle竞赛：Jigsaw Unintended Bias

1分钟了解数据分析挖掘体系

机器学习笔记

数据挖掘学习笔记一

【代谢组学】代谢组学原始数据的预处理

Python数据挖掘005-数据清洗

R数据分析实战—LOL中游戏时长对双方阵营胜率的影响

es基本分词设置及基本query

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读