美文网首页
数据预处理是什么?

数据预处理是什么?

作者: 小火君totora | 来源:发表于2019-04-10 14:54 被阅读0次

    对数据进行预处理,可以提高数据的质量,从而有助于提高后续学习的精度和技能。

    数据预处理主要包括以下几个步骤:
    1、数据清理

    数据清理通过填充缺失值,光滑噪声,识别离群点,并纠正数据中的不一致等技术来实现。

    (1)缺失值处理:
    删除、插补(1、用固定值插补 2、用均值插补)

    (2)、重复值

    删除

    (3)、逻辑错误

    格式统计

    2、数据集成

    举例:

    数据集成需要考虑许多问题,如实体识别问题,主要是匹配来自多个不同信息源的现实世界实体。
    冗余是另一个重要问题。如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。

    属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可通过相关分析检测到,如给定两个属性,根据可用的数据度量一个属性能在多大程度上蕴含另一个。

    3、数据规约

    数值规约通过选择替代的数据表示形式来减少数据量。即用较小的数据表示替换或估计数据。数值规约技术可以是有参的,也可以是无参的。如参数模型或非参数方法,如聚类、抽样和直方图。

    相关文章

      网友评论

          本文标题:数据预处理是什么?

          本文链接:https://www.haomeiwen.com/subject/vgbniqtx.html