美文网首页
Task 2:EDA

Task 2:EDA

作者: 我是曾阿牛 | 来源:发表于2020-03-24 15:33 被阅读0次

    EDA目标

    • 熟悉数据集
    • 了解变量间的相互关系
    • 为数据处理和特征工程做准备

    内容介绍

    载入数据科学库和可视化库

    • 数据科学库:pandas、numpy、scipy
    • 可视化库:matplotlib、seaborn

    载入数据

    • 载入训练集和测试集 pd.read_csv()
    • 简略观察数据 df.head()+df.shape

    数据总览

    • 熟悉数据的相关统计量 df.describe()
    • 熟悉数据类型 df.info()

    判断数据确实和异常

    • 查看每列存在nan的情况
    • 异常值检测

    了解预测值的分布

    • 总体分布概况(无界约翰逊分布等)
    • 查看skewness和kurtosis
    • 查看预测值的具体频数

    特征分类为类别特征和数字特征,并对类别特征查看unique分布

    数字特征分析

    • 相关性分析
    • 查看几个特征的峰度和偏度
    • 每个数字特征的分布可视化
    • 数字特征相互之间的关系可视化
    • 多变量互相回归关系可视化

    类型特征分析

    • unique分布
    • 类别特征箱型图可视化
    • 类型特征的小提琴图可视化
    • 类别特征的柱形图可视化
    • 特征的每个类别频数可视化

    用pandas_profiling生成数据报告

    代码示例

    • 见jupyter notebook,研究一下如何将notebook里的内容上传

    相关文章

      网友评论

          本文标题:Task 2:EDA

          本文链接:https://www.haomeiwen.com/subject/euwoyhtx.html