美文网首页数据分析啦
为什么需要清洗数据

为什么需要清洗数据

作者: 5a41eb2ceec6 | 来源:发表于2019-01-15 21:11 被阅读13次

    日拱一卒|数据挖掘001

    无论是大数据、数据挖掘、机器学习,亦或是简单的可视化,无一不是建立在乱七八糟的基础上。在正式地应用于数据科学如算法、可视化前,数据往往需要经过迁移、压缩、清洗、打散、分片、分块等其他转换处理。

    至少在经管科研中,数据收集、清洗是最耗费时间的事情。一旦有了高质量的数据,可以发一系列期刊

    《纽约时报》将数据清洗成为“看门人工作”,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。

    ——错进,错出

    数据清洗是如何融入数据科学中?

    展开来说需要围绕数据科学过程的六个步骤来描述。但不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架。有时会根据具体情况,反复执行这些步骤。

    1. 问题描述,识别出要解决的问题是什么。
    2. 数据收集与储存,数据从何而来?存放在哪里?数据格式是什么?
    3. 数据清洗,数据需要修改吗?有什么需要删除的吗?数据应该如何调整才能适用接下来的分析和挖掘?
    4. 数据分析和机器学习,数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
    5. 数据展现和可视化实现,数据处理结果应该怎样呈现出来呢?
    6. 问题决议,在第一步提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?还能找出别的什么办法吗?接下来要做的又是什么?

    要养成记录操作的习惯,哪怕不是正式的报告文档。最简单的方案就是保留一份工作日志。这份日志应包括:应包含的链接,屏幕截图或者复制粘贴曾运行过的具体命令,并配上解释性的文字。

    参考资料:
    《干净的数据 :数据清洗入门与实践》

    相关文章

      网友评论

        本文标题:为什么需要清洗数据

        本文链接:https://www.haomeiwen.com/subject/wkssdqtx.html