日拱一卒|数据挖掘001
无论是大数据、数据挖掘、机器学习,亦或是简单的可视化,无一不是建立在乱七八糟的基础上。在正式地应用于数据科学如算法、可视化前,数据往往需要经过迁移、压缩、清洗、打散、分片、分块等其他转换处理。
至少在经管科研中,数据收集、清洗是最耗费时间的事情。一旦有了高质量的数据,可以发一系列期刊
《纽约时报》将数据清洗成为“看门人工作”,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。
——错进,错出
数据清洗是如何融入数据科学中?
展开来说需要围绕数据科学过程的六个步骤来描述。但不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架。有时会根据具体情况,反复执行这些步骤。
- 问题描述,识别出要解决的问题是什么。
- 数据收集与储存,数据从何而来?存放在哪里?数据格式是什么?
- 数据清洗,数据需要修改吗?有什么需要删除的吗?数据应该如何调整才能适用接下来的分析和挖掘?
- 数据分析和机器学习,数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
- 数据展现和可视化实现,数据处理结果应该怎样呈现出来呢?
- 问题决议,在第一步提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?还能找出别的什么办法吗?接下来要做的又是什么?
要养成记录操作的习惯,哪怕不是正式的报告文档。最简单的方案就是保留一份工作日志。这份日志应包括:应包含的链接,屏幕截图或者复制粘贴曾运行过的具体命令,并配上解释性的文字。
参考资料:
《干净的数据 :数据清洗入门与实践》
网友评论