美文网首页
《Python数据分析与挖掘实战》读书笔记-数据探索

《Python数据分析与挖掘实战》读书笔记-数据探索

作者: 橘猫吃不胖 | 来源:发表于2020-05-28 15:08 被阅读0次

《Python数据分析与挖掘实战》,第三章数据探索

前面的内容偏理论,简单整理下,我感觉有点儿用的吧

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指不符合要求,以及不能直接进行相应分析的数据

脏数据通常包括:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据及含有特殊符号(*#¥)的数据

1. 缺失值

缺失值是指记录的缺失或者记录中某个字段信息的缺失

对于缺失值的处理:

  • 删除记录
  • 对可能值进行插补
  • 不处理

可以看看缺失值的个数、占比情况,

2. 异常值

异常值是指样本中的个别值,其数值明显偏离其余的观测值,异常值也称为离群点

这里的异常值,我们就可以使用箱线图来看了,直观方便

相关性分析

分析连续变量之间线性相关程度的强弱

这一篇,大概这些比较有用吧,其他还有些关于pandas的操作,我之前有写过的,这里就不看了,还有些理论知识,感觉暂时没大用处,后面再看吧

相关文章

网友评论

      本文标题:《Python数据分析与挖掘实战》读书笔记-数据探索

      本文链接:https://www.haomeiwen.com/subject/ibooahtx.html