美文网首页
数据处理备忘清单

数据处理备忘清单

作者: GPZ_Lab | 来源:发表于2019-05-31 20:36 被阅读0次

本次笔记内容:

  • ...虽然我明白每次拿到的数据都不一样,数据处理和清洗的步骤和侧重也不一样,但总有一些共性。这使得一个备忘清单很有必要。拿到一套数据后,我们可以对着清单排雷,并加上新遇到的雷。

  • 所以本笔记内容是做数据处理和清洗时需要注意的东西。持续更新,欢迎补充。

  • 我们使用python pandas数据处理

  • 这里的数据指目前我们工作中遇到的微生物组metadata,如电子病历,问卷收集的研究对象社会人口学信息,生活习惯等。有手工录入的,也有自动收集并导出的数据。本质上也是由samples和features构成的data.


  1. 重复值: 重复行/列
  2. 处理有关联的表格,需要注意的地方
  3. 异常值: 不规范数值及错误值
  4. 缺失程度: 每个feature的缺失率
  5. 数据分布:
  6. ... ...
1. 重复行/列:
2. 处理有关联的表格,需要注意的地方
  • 有关联的表格,比方说OTU table和样本电子病历表格。一个是样本的微生物组数据,一个是样本的疾病信息。样本ID将两个表格关联在一起。
  • 以上为例,则两个表格的样本ID必须完全一致。
  • 检查有关联的表格,关联ID(key)是否完全一致。整理出一致和不一致的部分,与数据提供方核实。
  • 重复行/列可能对关联造成影响,先解决重复行/列问题的问题。
3. 异常值
  • 检查不规范异常值:
     > 每列数据是否为统一数据类型:连续型变量列中是否存在string;检查分类型变量中是否存在int/float等。
     > 例如本应该为NA的值被填充为空格, _, -,\,/,
     > 例如0.45误填充为0,45导致变成string;例如个别数值型变量被加上了单位变成string
     > 是否确为误填需与数据提供方核实
  • 检查错误值
     > 如身高体重数值夸张,男性患者病史中有子宫肌瘤等不合常识及逻辑的错误。
     > 有些feature由其它列计算得到,比如BMI由身高体重计算得到。可以核对是否正确。
     > 需要注意有些病例或生活习惯信息,一些患者的病理指标远远超出平均范围,可能是疾病导致,并不是错误值。
     > 有必要时,让数据提供方提供一套正常值范围,包括连续型变量的正常范围,分类型变量包括的所有类别。
     > 无法修正的异常值填为空值。做好修正记录。
4. 缺失值
  • 拿到数据后概览一下raw data的缺失情况。方法参考本链接第8条
  • 将异常值处理好后,再处理缺失值。
  • 设置一个cutoff,大概50%-70%,视情况而定。去除缺失率超过cutoff的feature。将留下的features填充缺失值。
  • 填充缺失值有很多种方法,均值,0,knn, 或者直接NA
  • 记录删除的features,对填充缺失值的feature做好记录。
5. 数据分布
  • 概览raw data的数据分布情况。方法参考本链接第8条
  • 将重复行/列,异常值,缺失值等问题处理好后,查看数据各feature的分布情况,可以制图或表。
6. to be continued...

相关文章

  • 数据处理备忘清单

    本次笔记内容:...虽然我明白每次拿到的数据都不一样,数据处理和清洗的步骤和侧重也不一样,但总有一些共性。这使得一...

  • 从0开始学python第9.2节-备忘清单GUI版

    上节课我们学习了使用tkinter开发用户界面。这节课,我们用tkinter重新实现一下备忘清单,给备忘清单加一个...

  • Git 备忘清单

    基础配置命令 查看图形界面gitk --all& 显示log信息git log --author=name #显...

  • 情景?清单?情景清单?

    搞定1第七章很长,讲的是建立清单。书里讲到各类的清单,有行动清单、项目清单、项目资料、备忘录。还举了很多案例来说明...

  • 说实话,列清单这个习惯很赞!

    不知道从什么时候,我开始喜欢上了列清单。我的工作和生活开始充满了各种各样的清单,用清单记录、用清单备忘、纸质清单、...

  • 万用清单篇学习笔记

    列清单的好处 1、首先清单能减轻焦虑快速建立成就感。 2、写清单可以随手写备忘,重点不遗漏。 3、写清单能帮助我们...

  • 3.13 是时候重启清单

    是时候重启清单 清单是我们生活中的常用工具,它的种类很多,备忘录、购物清单、todolist、银行对账单、个人日周...

  • Git 实用备忘清单

    今天卡看到一张很不错的Git 命令备忘清单,留作记忆

  • #30天专注橙长计划#投资理财 Day2|建立“输入”平台清单&

    建立“输入”平台清单&资料库——初步架构 (使用标签标记,便于检索) 清单包括: (工具:备忘录、有道云笔记、为知...

  • 看房备忘清单

    看房时工作: 一、拍照小区名称或者大门,用于地图定位。 二、拍照小区前面的道路,了解周边环境。 三、拍照小区中的景...

网友评论

      本文标题:数据处理备忘清单

      本文链接:https://www.haomeiwen.com/subject/azpuzqtx.html