清洗脏数据

作者: EPM研习会 | 来源:发表于2022-11-28 19:59 被阅读0次

虽然一直强调规范表格、规范数据的重要性,但是始终无法避免脏数据的产生。因此本文简单介绍一下哪些数据需要清洗,转换成规范数据和表格。

每一列的数据类型和数据格式。上一篇已经提到,同一列的数据是同一种数据类型,避免在同一列混用多种类型。

空格和不可见字符。常见于从系统导出的表格,用眼睛无法观察到,双击单元格进入编辑模式,或者使用单元格可以识别出来。

部分中文字符转换为英文字符。数字中的中文逗号、时间中的中文冒号等。

重复数据。删除会影响计算结果的重复数据。

空白行空白列。通常由不良的操作系统产生的,比如在数据行列中插入的空白行空白列;操作单元格时习惯性选择整行整列,进行设置格式或者填充颜色,导致没有数据的空单元格也变成已使用的单元格。

处理合并单元格。除了结果报表,避免的表格中使用合并单元格。

填充空单元格。比如取消合并单元格后,会出现大量空单元格,需要填充对应的值。

数字。用于计算的数字,将文本型数字转换为数值型;类似产品型号、编码等不用于计算的数字,转换为文本值。

日期。短横线“-”分隔,如“2022-11-04”“2022-11”;斜杠“/”分隔,如“2022/11/04”“2022/11”;)使用中文年月日,如“2022年11月04日”“2022年11月”。

时间。时间的小时、分隔和秒数用英文冒号“:”分隔如“22:04:10”“22:04”。

相关文章

  • PowerBI数据清洗十三招 | PowerBI星球

    对导入的数据进行数据整理的过程一般称为「数据清洗」,之所以称之为清洗,是因为在数据分析师眼中,杂乱的数据就是脏数据...

  • excel函数

    (一) 清洗处理类 主要是文本、格式以及脏数据的清洗和转换。很多数据并不是直接拿来就能用的,需要经过数据分析人员的...

  • 利用R进行脏数据清洗

    在进行正式的数据分析之前,必须要保证数据的质量,故而我们要处理缺失值、异常值这些脏数据。 一、缺失值 缺失值的处理...

  • Excel常用函数

    清洗处理类 主要是文本、格式以及脏数据的清洗和转换。很多数据并不是直接拿来就能用的,需要经过数据分析人员的清理。数...

  • 数据清洗 - 概念与清洗数据类型

    数据清洗 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检...

  • 数据产品经理_数据清洗

    数据清洗原理 利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。简单来说,数...

  • 发动机脏了如何清洗?能不能用高压水枪冲洗?

    发动机脏了如何清洗? 咱们看得见的这个车身脏了,容易看到,会经常开到洗车店去清洗,可咱们的这个发动机舱里的脏就不容...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

网友评论

    本文标题:清洗脏数据

    本文链接:https://www.haomeiwen.com/subject/mulrfdtx.html