美文网首页
数据清理

数据清理

作者: 小马哥志峰 | 来源:发表于2017-10-04 17:32 被阅读0次

    去除数据中的重复,并将剩余部分转换成标准、可接受格式的处理过程。

    1、数据问题

    数据缺失

    通过手动或规则填充数据;

    清除列;

    无效数据

    错误数据的探测和修正;

    根据概率统计学发现数据值异常的记录,如姓名、地址、邮政编码等。

    重复记录

    合并/清除 规则。处理方式与特定的应用领域无关。

    数据源内部或数据源之间数据的不一致性

    可定义完整性约束来发现不一致性。也可通过分析数据发现关联,从而保持一致性。

    数据迁移工具:通过归一化规则,如把gender字符串都转化成sex。

    数据清理工具:使用领域特有知识(如邮件地址)对数据进行清理,通过语义分析、模糊匹配解决数据清理。

    数据审计:通过扫描数据发现规律与联系。

    2、数据问题的处理方法

    1)研究数据、定义错误类型

    单数据源?多数据源?

    结构级错误?记录级错误?是否符合字段定义和约束?

    2)搜索、识别错误

    排序、比较、匹配等耗时的运算。

    3)修正错误

    依赖标准文件、数据字典、数理统计。

    参考

    http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97

    相关文章

      网友评论

          本文标题:数据清理

          本文链接:https://www.haomeiwen.com/subject/woscyxtx.html