美文网首页WE农村共享玩具黑科技
10个数据清洗小技巧,快速提高你的数据质量

10个数据清洗小技巧,快速提高你的数据质量

作者: DataHunter小数 | 来源:发表于2019-04-08 18:04 被阅读298次

数据质量在数据分析中的重要性毋庸置疑,其直接影响数据的产出和数据价值的高低,通常我们对数据质量的判断主要依据准确性、完整性和一致性三方面。但是,这几点原始数据往往并不具备。所以数据清洗成为了数据分析的重要前提,并且占据了整个数据分析工作中80%的时间。

那么如何通过数据清洗来提高数据质量呢?接下来小编就来教大家10个数据清洗小技巧,希望能帮助小伙伴们提高工作效率~

1、准备工作

拿到数据表之后,先做这些准备工作,方便之后的数据清洗。

(1)给每一个sheet页命名,方便寻找

(2)给每一个工作表加一列行号,方便后面改为原顺序

(3)检验每一列的格式,做到每一列格式统一

(4)做数据源备份,防止处理错误需要参考原数据

(5)删除不必要的空行、空列

2、统一数值口径

这是个无聊而必要的步骤。例如我们统计销售任务指标,有时用合同金额有时用回款金额,口径经常不统一。统计起来就很麻烦。所以将不规范的数值改为规范这一步不可或缺。

3、删掉多余的空格

原始数据中如果夹杂着大量的空格,可能会在我们筛选数据或统计时带来一定麻烦。如何去掉多余的空格,仅在字符间保留一个空格?

(1)手动删除。如果只有三五个空格,这可能是最快的方式。

(2)函数法

在做数据清洗时,经常需要去除数据两端的空格,那么TRIM、LTRIM、RTRIM这3个函数就可以帮到你啦~

TRIM函数:主要是用来去除单元格内容前后的空格,但不会去除字符之间的空格。表达式:=TRIM(文本)

ps:LTRIM、RTRIM与TRIM函数的使用方法一样~

LTRIM函数:用来去除单元格内容左边的空格;RTRIM函数:用来去除单元格内容右边的空格。

4、字段去重

强烈建议把去重放在去除空格之后,因为多个空格导致工具认为“顾纳”和“顾 纳”不是一个人,去重失败。

按照“数据”-“删除重复项”-选择重复列步骤执行即可。(单选一列表示此列数据重复即删除,多选表示多个字段都重复才删除。)

5、填补缺失值

由于人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找漏网之“数据”,填充空缺值。

如何统计有多少缺失值?

先看ID唯一列有多少行数据,参考excel右下角的计数功能,对比就可以知道其他列缺失了多少数据。

如何定位到所有缺失值?

Ctrl+G,选择定位条件,然后选择空值。

缺失值的处理方法:

(1)人工补全。适合数据量少的情况。

(2)删除。适用于样本较大的情况,样本较小时,可能会影响最终的分析结果 。

(3)根据数据的分布情况,可以采用均值、中位数、或者众数进行数据填充。

数据均匀,均值法填充;数据分布倾斜,中位数填充。

(4)用模型计算值来代替缺失值。

回归:基于完整的数据集,建立回归方程。将已知属性值代入方程来估计未知属性值,以估计值来进行空值得填充。

极大似然估计:基于缺失类型为随机缺失得条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对缺失数据进行极大似然估计。

(5)插补法

随机插补法:从总体中随机抽取某几个样本代替缺失样本。

多重填补法:包含m个插补值的向量代替每一个缺失值的过程,要求m大于等于20。m个完整数据集合能从插补向量中创建。

6、异常值处理

异常值:指一组测定值中与平均值的偏差超过两倍标准差的测定值。

对异常值处理,需要具体情况具体分析,一般而言,异常值的处理方法常用有以下3种:

(1) 不处理

(2)用平均值替代

利用平均值来代替异常值,损失信息小,简单高效。

(3)视为缺失值

将异常值视为缺失值来处理,采用处理缺失值的方法来处理异常值。

7、拆分单元格

按照以下步骤对合并单元格进行拆分并填充:

(1)点击取消合并单元格

(2)空白单元格定位:点击定位-选择空白

(3)写上=上个单元格

(4)Ctrl+Enter

8、分组计算

通过VLOOKUP函数将字段合在一起用于计算。

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

9、固定宽度截取

固定宽度截取:

mid(text,start_num,num_chars);

其中:text表示要截取的字符串,start_num表示从第几位字符串开始截取,num_chars表示要截取的字符数。

10、二维表转换

(1)插入数据透视表

(2)选择“使用多重合并计算区域”

(3)点击“选定区域”

(4)选择所需要处理的区域后点击“添加”按钮

(5)点击“完成”后点击“确认”

(6)弹出数据透视的页面,双击右下角的数字即可

最后,再强调一下,在进行数据清洗之前,一定一定一定要记得备份你的数据源!

更多干货内容,欢迎关注公众号:数猎天下DataHunter

-数据分析展示就用 DataHunter-

相关文章

  • 10个数据清洗小技巧,快速提高你的数据质量

    数据质量在数据分析中的重要性毋庸置疑,其直接影响数据的产出和数据价值的高低,通常我们对数据质量的判断主要依据准确性...

  • Python数据挖掘005-数据清洗

    数据预处理包括有数据清洗,数据集成,数据转换,数据规约等过程。 数据预处理的目的是提高数据的质量,同时让数据更好的...

  • 数据预处理

    数据预处理主要包括数据清洗、数据集成、数据变换和数据规约。它一方面可以提高数据的质量,另一方面是要让数据更好的适应...

  • 数据预处理

    一、引述 低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技...

  • pandas操作技巧

    本文中记录Pandas操作技巧,包含: 导入数据 导出数据 查看、检查数据 数据选取 数据清洗 数据处理:Filt...

  • PowerQuery文本处理函数:Text.Remove 和Te

    每当拿到原始数据,不如意十有八九,快速准确的清洗数据也是必备技能,数据清洗正好是 PowerQuery 的强项,本...

  • 文本数据清洗(小技巧)

    文本数据清洗 ※本文是关于英文文本处理,有些技巧在中文中用不到。 入手的数据就是格式化表格的时代已经一去不复返了。...

  • SQL必知必会(实战:数据清洗)

    数据清洗的准则 数据集或多或少地会存在数据质量问题。这里我们使用泰坦尼克号乘客生存预测数据集,你可以从GitHub...

  • mysql 导入数据优化和关于insert into selec

    或为渡江楫,慷慨吞胡羯。 数据导入的一些技巧优化,提高导入速度 在恢复数据时,可能会导入大量的数据。此时为了快速导...

  • 01-11

    今天看的是数据清洗部分,将其中一些无用的繁杂数据予以清除,便于后续整理,提高最后结果的质量。依然是利用之前的pan...

网友评论

    本文标题:10个数据清洗小技巧,快速提高你的数据质量

    本文链接:https://www.haomeiwen.com/subject/zwvpiqtx.html