数据仓库与数据挖掘技术—数据预处理

作者: 熊猫学猿 | 来源:发表于2022-07-21 07:05 被阅读0次

数据预处理是指在对数据进行数据挖掘主要的处理以前，先对原始数据进行必要的清洗、集成、转换、离散和归约等一系列的处理工作，以达到挖掘算法进行知识获取研究所要求的最低规范和标准

数据挖掘所依赖的数据源多种多样，可以是常用的关系数据库、事务数据库、文本数据库、多媒体数据库等，其中不可避免的存在噪声数据、冗余数据、缺失数据、不确定数据和不一致数据的诸多情况

常见的数据预处理方法有数据清洗、数据集成、数据变换和数据规约

数据清洗：填充遗漏的数据值、平滑有噪声数据，识别或除去异常值，以及解决不一致问题

数据集成：将来至多个数据源的数据合并到一起，形成一致的数据存储

数据变换：将数据转换成适合于挖掘的形式

数据归约：在不影响挖掘结果的前提下，通过数值聚集、删除用于特性的办法压缩数据，提高挖掘模式的质量，降低时间复杂度

数据清洗：

1、对数据及进行检验检测，可以采用统计学的方法对数据进行统计分析，计算属性值的各种数值，如考虑属性值之前差别大小、方差等，还有可以对与其他数据格式不一致的数据进行格式转换，使之格式符合数据挖掘的需要

2、对数据集中重复的对象进行消除

3、对缺失数据的补齐，采用可靠的算法将与缺失的值最相似的值替换缺失值的方法

数据归约技术：

1、降维处理。主要采用删除冗余属性的方法。若用手工方法去除冗余属性就需要用到专家知识，通常使用属性子集选择方法，包括逐步向前选择法，逐步向后删除法，判定树归纳法等

2、从数据集中选择较小的数据表示形式来减少数据量，需要用到数据数值归约技术，主要采用直方图、聚类等技术

3、对信息系统中与决策属性没有关联或者关联度不大的属性进行约简，得到关键属性，减少冗余属性

4、离散化技术减少给定连续属性值的个数

数据清理的另一个重要内容是数据类型的转化，通常是指连续属性的离散化，一般来说与类别无关的离散方法有等距区间法、等频区间法和最大熵法。与类别有关的方法有划分法和归并法等，通过离散化，可以有效地减少数据表的大小，提高分类的准确性

填充缺失值：忽略元组、人工填写、使用一个全局常量填充、用属性的均值填充、用同类样本的属性均值填充、使用最可能的值填充、用邻近方法填充

网友评论

本文标题：数据仓库与数据挖掘技术—数据预处理

本文链接：https://www.haomeiwen.com/subject/cmfuirtx.html

数据仓库与数据挖掘技术—数据预处理