美文网首页
原始数据杂乱无章?你需要这份清洗宝典!

原始数据杂乱无章?你需要这份清洗宝典!

作者: 人人信 | 来源:发表于2019-12-12 17:05 被阅读0次

    在数据分析和可视化的过程中,我们会花费多达60%甚至以上的时间在数据清洗上。

    如何把数据改变成我们喜欢的样子,给那些丑数据做美颜,小编将通过这篇文章给大家介绍7步套路。

    精简概要版

    1、整体瘦身:选择分析所需要的数据集子集。

    2、改名换姓:给字段起个通俗易懂的名字。

    3、拒绝重复:保证数据的唯一性,删除重复值。

    4、填补缺失:寻找漏网之“数据”,填充空缺值。

    5、整齐划一:保证数据一致性。

    6、排序:让信息更加一目了然

    7、异常处理:具体问题具体分析。

    干货说明版

    在做数据清洗之前,请先将原始数据留存备份!

    1、整体瘦身

    当我们拿到一个原始数据表的话,在明确分析目的的基础上,需要将不必要的列隐藏掉,来对整体数据做瘦身。

    比如,数据中同时有公司全名和公司简称两个字段信息,但是分析过程中,我们只需要一个字段即可,这是可以隐藏其中一个字段。

    这里注意:尽量不去删除数据,而是使用隐藏方式,保持原始数据的完整,方便后续工作。

    2、改名换姓

    当存在英文或者不符合阅读习惯的时候,可以对字段名称也就是excel表中的列名进行重命名,以帮助后续分析理解。

    3、拒绝重复

    对ID唯一列的重复值进行删除,一般可以借助excel功能中的数据-删除重复项

    4、填补缺失

    由于人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找漏网之“数据”,填充空缺值。

    如何统计有多少缺失值?

    先看ID唯一列有多少行数据,参考excel右下角的计数功能,对比就可以知道其他列缺失了多少数据。

    如何定位到所有缺失值?

    Ctrl+G,选择定位条件,然后选择空值

    缺失值的处理方法?

    第一种:人工补全,适合数据量少的情况;

    第二种:删除;

    第三种:用平均值代替缺失值;

    第四种:用模型计算值来代替缺失值。

    5、整齐划一

    数据如果没有统一的标准和命名,将会影响后续分析结果,所以要对其进行一致化处理。

    举个简单例子,以下是从拉勾爬取了一些招聘数据,其中薪水这个字段比较特殊,是一个范围,而不是具体数值。

    这里要做到整齐划一,就需要借助分列功能对齐进行操作。

    现在工作表的后方插入两列,分别命名“最低薪水”和“最高薪水”,然后选中“薪水”列,在excel中选择数据-分列-分隔符号-勾选其他,并在其他后面输入“-”,即可完成。

    6、数据排序

    我们对上述所说的最低薪水和最高薪水取平均值后,再进行由高到低排序,就可以大致看出哪个城市给的薪水比较靠前。

    7、异常处理

    异常值的判别:可以参考之前我们提供的箱线图文章,利用箱线图,可以迅速识别异常值。

    对异常值处理,需要具体情况具体分析,一般而言,异常值的处理方法常用有四种:

    1.删除含有异常值的记录

    2.将异常值视为缺失值,交给缺失值处理方法来处理

    3.用平均值来修正

    4.不处理

    经过上述7个步骤,我们就对原始数据做了清洗、美颜。

    接下来就是数据分析和数据可视化的过程了,借助DataHunter,能够助您事半功倍哦!

    相关文章

      网友评论

          本文标题:原始数据杂乱无章?你需要这份清洗宝典!

          本文链接:https://www.haomeiwen.com/subject/gxmtnctx.html