美文网首页
数据仓库与数据挖掘技术—数据预处理

数据仓库与数据挖掘技术—数据预处理

作者: 熊猫学猿 | 来源:发表于2022-07-21 07:05 被阅读0次

数据预处理是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准

数据挖掘所依赖的数据源多种多样,可以是常用的关系数据库、事务数据库、文本数据库、多媒体数据库等,其中不可避免的存在噪声数据、冗余数据、缺失数据、不确定数据和不一致数据的诸多情况

常见的数据预处理方法有数据清洗、数据集成、数据变换和数据规约

数据清洗:填充遗漏的数据值、平滑有噪声数据,识别或除去异常值,以及解决不一致问题

数据集成:将来至多个数据源的数据合并到一起,形成一致的数据存储

数据变换:将数据转换成适合于挖掘的形式

数据归约:在不影响挖掘结果的前提下,通过数值聚集、删除用于特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度

数据清洗:

1、对数据及进行检验检测,可以采用统计学的方法对数据进行统计分析,计算属性值的各种数值,如考虑属性值之前差别大小、方差等,还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要

2、对数据集中重复的对象进行消除

3、对缺失数据的补齐,采用可靠的算法将与缺失的值最相似的值替换缺失值的方法

数据归约技术:

1、降维处理。主要采用删除冗余属性的方法。若用手工方法去除冗余属性就需要用到专家知识,通常使用属性子集选择方法,包括逐步向前选择法,逐步向后删除法,判定树归纳法等

2、从数据集中选择较小的数据表示形式来减少数据量,需要用到数据数值归约技术,主要采用直方图、聚类等技术

3、对信息系统中与决策属性没有关联或者关联度不大的属性进行约简,得到关键属性,减少冗余属性

4、离散化技术减少给定连续属性值的个数

数据清理的另一个重要内容是数据类型的转化,通常是指连续属性的离散化,一般来说与类别无关的离散方法有等距区间法、等频区间法和最大熵法。与类别有关的方法有划分法和归并法等,通过离散化,可以有效地减少数据表的大小,提高分类的准确性

填充缺失值:忽略元组、人工填写、使用一个全局常量填充、用属性的均值填充、用同类样本的属性均值填充、使用最可能的值填充、用邻近方法填充

相关文章

网友评论

      本文标题:数据仓库与数据挖掘技术—数据预处理

      本文链接:https://www.haomeiwen.com/subject/cmfuirtx.html