美文网首页
浅谈 数据清洗

浅谈 数据清洗

作者: 秋夜雨凉 | 来源:发表于2020-04-18 20:39 被阅读0次

预处理阶段

该阶段主要做2件事:

  1. 将数据原封不动的抽取导入,切记永远不要对源数据进行直接的清洗修改。

  2. 了解数据:

  • 整理记录元数据,包括但不限于字段解释、数据来源、计算方式等

  • 抽取部分数据了解:永远不要相信别人提供的数据描述,人工查看以确认实际数据情况。

null值清理

大部分数据都存在着Null值的情况,处理null值也有很多方法。

  1. 确认null值分布:对每个字段都计算出null值比例。然后整理出每个字段的重要性(业务)和缺失值占比。

  2. 根据重要性和缺失值进行处理。处理方法可参考下图。

image.png

补充:

  • 具体多少缺失率算高需要结合实际业务场景来决定。个人建议10%以上就算高。

  • 通过统计学计算进行填充:

常用的计算方式为均值、中位数、众数、简单的回归计算。

统一内容格式

我们要输出的数据格式和获得的数据格式有时候并不一致。如下

输入格式 输出格式
一万三千(String) 13000(Int)
二零一九年四月(String) 2019-04(date)
20190401(Int) 2019-04-01(date)
  1. 整理出每个字段需要的格式和字符。

  2. 格式转化

    将不同于输出格式的数据进行格式转换。

  3. 去除不该有的字符

    最常见的就是莫名其妙的空格,及一些文本的\t等等。此处需要半自动半人工的方式来解决。

  4. 内容与该有的内容不符

比如姓名和性别位置写错,或者出现一些很奇怪的字符。此处需要追朔数据源头。详细识别数据类型。大多要用人工的方式来解决,

逻辑错误清理

此处主要清理使用简单逻辑即可发现问题的数据。

  1. 去重,最常见的逻辑错误。

  2. 去除逻辑明显不合理的值:比如200岁的人。这种数据要么删掉,要么按照缺失值来处理。

  3. 修正矛盾内容:有的字段可以相互验证,例如年龄和身份证号。如果两个字段出现矛盾,那么取来源更可靠的字段数据。

相关文章

  • 浅谈 数据清洗

    预处理阶段 该阶段主要做2件事: 将数据原封不动的抽取导入,切记永远不要对源数据进行直接的清洗修改。 了解数据: ...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-08-19 分析lianjia数据(三)——SPSS数

    前置内容——lianjia数据清洗 分析lianjia房源数据(一)——Python数据清洗 分析lianjia房...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • 浅谈数据仓库(DW & BI)(五)

    历史文章: #42 浅谈数据仓库(DW & BI)(一):数据仓库发展起源及概述 #43 浅谈数据仓库(DW & ...

  • 数据清洗

    从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解...

  • 数据清洗

    数据清洗 重复数据处理(推荐使用顺序) 数据透视表可统计数据重复次数和重复数据 选中A、B两列,点击插入选项卡-数...

网友评论

      本文标题:浅谈 数据清洗

      本文链接:https://www.haomeiwen.com/subject/einovhtx.html