原始数据杂乱无章？你需要这份清洗宝典！

作者: 人人信 | 来源:发表于2019-12-12 17:05 被阅读0次

原始数据杂乱无章？你需要这份清洗宝典！
KMeans
第三章-数据预处理
《Python数据分析与挖掘实战》第四章数据预处理
PowerQuery文本处理函数：Text.Remove 和Te
数据分析学习记录W32——利用Alteryx进行算法建模分析的一
数据仓库分层
2020-09-21
MapReduce将HDFS数据清洗到多个Hbase表中
R数据分析：数据清洗的思路和核心函数介绍

在数据分析和可视化的过程中，我们会花费多达60%甚至以上的时间在数据清洗上。

如何把数据改变成我们喜欢的样子，给那些丑数据做美颜，小编将通过这篇文章给大家介绍7步套路。

精简概要版

1、整体瘦身：选择分析所需要的数据集子集。

2、改名换姓：给字段起个通俗易懂的名字。

3、拒绝重复：保证数据的唯一性，删除重复值。

4、填补缺失：寻找漏网之“数据”，填充空缺值。

5、整齐划一：保证数据一致性。

6、排序：让信息更加一目了然

7、异常处理：具体问题具体分析。

干货说明版

在做数据清洗之前，请先将原始数据留存备份！

1、整体瘦身

当我们拿到一个原始数据表的话，在明确分析目的的基础上，需要将不必要的列隐藏掉，来对整体数据做瘦身。

比如，数据中同时有公司全名和公司简称两个字段信息，但是分析过程中，我们只需要一个字段即可，这是可以隐藏其中一个字段。

这里注意：尽量不去删除数据，而是使用隐藏方式，保持原始数据的完整，方便后续工作。

2、改名换姓

当存在英文或者不符合阅读习惯的时候，可以对字段名称也就是excel表中的列名进行重命名，以帮助后续分析理解。

3、拒绝重复

对ID唯一列的重复值进行删除，一般可以借助excel功能中的数据-删除重复项。

4、填补缺失

由于人工录入或者数据爬虫等多方面的原因，会出现缺失值的情况，这就需要我们寻找漏网之“数据”，填充空缺值。

如何统计有多少缺失值？

先看ID唯一列有多少行数据，参考excel右下角的计数功能，对比就可以知道其他列缺失了多少数据。

如何定位到所有缺失值？

Ctrl+G,选择定位条件，然后选择空值

缺失值的处理方法？

第一种：人工补全，适合数据量少的情况；

第二种：删除；

第三种：用平均值代替缺失值；

第四种：用模型计算值来代替缺失值。

5、整齐划一

数据如果没有统一的标准和命名，将会影响后续分析结果，所以要对其进行一致化处理。

举个简单例子，以下是从拉勾爬取了一些招聘数据，其中薪水这个字段比较特殊，是一个范围，而不是具体数值。

这里要做到整齐划一，就需要借助分列功能对齐进行操作。

现在工作表的后方插入两列，分别命名“最低薪水”和“最高薪水”，然后选中“薪水”列，在excel中选择数据-分列-分隔符号-勾选其他，并在其他后面输入“-”，即可完成。

6、数据排序

我们对上述所说的最低薪水和最高薪水取平均值后，再进行由高到低排序，就可以大致看出哪个城市给的薪水比较靠前。

7、异常处理

异常值的判别：可以参考之前我们提供的箱线图文章，利用箱线图，可以迅速识别异常值。

对异常值处理，需要具体情况具体分析，一般而言，异常值的处理方法常用有四种：

1.删除含有异常值的记录

2.将异常值视为缺失值，交给缺失值处理方法来处理

3.用平均值来修正

4.不处理

经过上述7个步骤，我们就对原始数据做了清洗、美颜。

接下来就是数据分析和数据可视化的过程了，借助DataHunter，能够助您事半功倍哦！

网友评论

本文标题：原始数据杂乱无章？你需要这份清洗宝典！

本文链接：https://www.haomeiwen.com/subject/gxmtnctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

原始数据杂乱无章？你需要这份清洗宝典！

相关文章