数据质量
数据挖掘所使用的数据常常是为其他用途收集的,或者在收集时未明确其目的。因此,数据挖掘常常不能在数据源头控制质量,一般而言,原始数据都会存在以下几个问题:测量误差和数据收集错误;噪声和伪像;离群点;遗漏值;不一致的值;重复的数据。
数据清洗
原始数据中出现的问题会对下一阶段的分析过程产生重大的影响,因此,在数据清洗阶段需要针对不同的问题,进行针对性的处理。
1. 测量误差和数据收集误差
其中,测量误差是指测量过程中导致的问题,数据收集错误是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。如果我们只考虑一般的错误类型,例如人工输入数据时键盘录入错误十分常见,因此可以开发许多数据输入程序进行检测,并且通过人工干预纠正这类错误。
2. 噪声和伪像
噪声是测量误差的随机部分,这可能使得值被扭曲或加入了谬误对象。噪声通常包含时间或空间分量的数据,在这些情况下,常常可以使用信号或图像处理技术降低噪声,从而帮助发现可能“淹没在噪声中”的模式或信号。尽管如此,完全消除噪声通常是十分困难的,而许多数据挖掘工作都关注设计鲁棒性很强的算法,即便在噪声干扰下也能产生可以接受的结果。
3. 离群点
离群点是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。对于离群点,可以使用异常检测算法进行有效的检测。
4. 遗漏值
对象遗漏一个或多个属性值的情况屡见不鲜,例如有的人拒绝透露年龄和体重,这时信息收集不全的现象变得十分常见。对于遗漏值,有许多应对的策略,包括删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值、使用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值等。
5. 不一致的值
数据可能包含不一致的值,比如地址字段列出了邮政编码和城市名,但是有的邮政编码区域并不包含在对应的城市中,至于不一致的原因无从考究,重要的是能够被检测出来。对于容易检测的值,有时可能需要查阅外部信息源,这样在检测到不一致后,即可进行更正。
6. 重复数据
数据集可能包含重复的数据对象。许多人都收到过重复的邮件,因为他们以稍微不相同的名字多次出现在数据库中。为了检测并删除这种重复,必须处理两个主要问题。首先,如果两个对象实际代表同一个对象,则对应的属性值必然不同,必须解决这些不一致的值;其次,需要避免意外地将两个相似但并非重复的数据对象合并到一起。
数据集成
在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。
数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义。
数据变换
1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
数据规约
目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数
网友评论