数据预处理是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准
数据挖掘所依赖的数据源多种多样,可以是常用的关系数据库、事务数据库、文本数据库、多媒体数据库等,其中不可避免的存在噪声数据、冗余数据、缺失数据、不确定数据和不一致数据的诸多情况
常见的数据预处理方法有数据清洗、数据集成、数据变换和数据规约
数据清洗:填充遗漏的数据值、平滑有噪声数据,识别或除去异常值,以及解决不一致问题
数据集成:将来至多个数据源的数据合并到一起,形成一致的数据存储
数据变换:将数据转换成适合于挖掘的形式
数据归约:在不影响挖掘结果的前提下,通过数值聚集、删除用于特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度
数据清洗:
1、对数据及进行检验检测,可以采用统计学的方法对数据进行统计分析,计算属性值的各种数值,如考虑属性值之前差别大小、方差等,还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要
2、对数据集中重复的对象进行消除
3、对缺失数据的补齐,采用可靠的算法将与缺失的值最相似的值替换缺失值的方法
数据归约技术:
1、降维处理。主要采用删除冗余属性的方法。若用手工方法去除冗余属性就需要用到专家知识,通常使用属性子集选择方法,包括逐步向前选择法,逐步向后删除法,判定树归纳法等
2、从数据集中选择较小的数据表示形式来减少数据量,需要用到数据数值归约技术,主要采用直方图、聚类等技术
3、对信息系统中与决策属性没有关联或者关联度不大的属性进行约简,得到关键属性,减少冗余属性
4、离散化技术减少给定连续属性值的个数
数据清理的另一个重要内容是数据类型的转化,通常是指连续属性的离散化,一般来说与类别无关的离散方法有等距区间法、等频区间法和最大熵法。与类别有关的方法有划分法和归并法等,通过离散化,可以有效地减少数据表的大小,提高分类的准确性
填充缺失值:忽略元组、人工填写、使用一个全局常量填充、用属性的均值填充、用同类样本的属性均值填充、使用最可能的值填充、用邻近方法填充
网友评论