对数据进行预处理,可以提高数据的质量,从而有助于提高后续学习的精度和技能。
数据预处理主要包括以下几个步骤:
1、数据清理
数据清理通过填充缺失值,光滑噪声,识别离群点,并纠正数据中的不一致等技术来实现。
(1)缺失值处理:
删除、插补(1、用固定值插补 2、用均值插补)
(2)、重复值
删除
(3)、逻辑错误
格式统计
2、数据集成
举例:
数据集成需要考虑许多问题,如实体识别问题,主要是匹配来自多个不同信息源的现实世界实体。
冗余是另一个重要问题。如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。
属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可通过相关分析检测到,如给定两个属性,根据可用的数据度量一个属性能在多大程度上蕴含另一个。
3、数据规约
数值规约通过选择替代的数据表示形式来减少数据量。即用较小的数据表示替换或估计数据。数值规约技术可以是有参的,也可以是无参的。如参数模型或非参数方法,如聚类、抽样和直方图。
网友评论