美文网首页
Task 2:EDA

Task 2:EDA

作者: 我是曾阿牛 | 来源:发表于2020-03-24 15:33 被阅读0次

EDA目标

  • 熟悉数据集
  • 了解变量间的相互关系
  • 为数据处理和特征工程做准备

内容介绍

载入数据科学库和可视化库

  • 数据科学库:pandas、numpy、scipy
  • 可视化库:matplotlib、seaborn

载入数据

  • 载入训练集和测试集 pd.read_csv()
  • 简略观察数据 df.head()+df.shape

数据总览

  • 熟悉数据的相关统计量 df.describe()
  • 熟悉数据类型 df.info()

判断数据确实和异常

  • 查看每列存在nan的情况
  • 异常值检测

了解预测值的分布

  • 总体分布概况(无界约翰逊分布等)
  • 查看skewness和kurtosis
  • 查看预测值的具体频数

特征分类为类别特征和数字特征,并对类别特征查看unique分布

数字特征分析

  • 相关性分析
  • 查看几个特征的峰度和偏度
  • 每个数字特征的分布可视化
  • 数字特征相互之间的关系可视化
  • 多变量互相回归关系可视化

类型特征分析

  • unique分布
  • 类别特征箱型图可视化
  • 类型特征的小提琴图可视化
  • 类别特征的柱形图可视化
  • 特征的每个类别频数可视化

用pandas_profiling生成数据报告

代码示例

  • 见jupyter notebook,研究一下如何将notebook里的内容上传

相关文章

网友评论

      本文标题:Task 2:EDA

      本文链接:https://www.haomeiwen.com/subject/euwoyhtx.html