美文网首页Python数据可视化
数据分析之pandas-profiling一行代码生成超详细数据

数据分析之pandas-profiling一行代码生成超详细数据

作者: 老王叔叔 | 来源:发表于2020-02-26 09:57 被阅读0次

    最大的作用可能就是数据处理前,观察了解一下数据结构。

    1. 安装pandas-profiling

    pip install pandas-profiling
    

    2. 使用pandas-profiling

    先导入需要的包

    import pandas as pd
    import pandas_profiling
    

    读取数据并生成报告

    这里以泰坦尼克数据集为例,调用profile_report方法生成EDA分析报告
    没有数据集?【这里下载!

    data = pd.read_excel('titanic.xlsx')
    
    jupyter查看报告
    pandas_profiling.ProfileReport(data)
    
    也可以使用to_file方法另存为.html文件
    profile = data.profile_report(title="Titanic_data")
    profile.to_file(output_file="c:\\Titanic_data.html")
    

    3. 查看报告

    上面简单几步就可以搞定啦,现在我们来看下生成的报告

    可以看出报告大体由5部分组成,分别是

    1. 数据集概况(基本信息)

    变量数(列)、观察数(行)、数据缺失率、内存;
    数据类型的分布情况

    1. 每个变量的详细情况

    要点:类型,唯一值,缺失值
    分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
    描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度

    1. 相关性分析
    2. 缺失值情况
    3. 样本信息
      具体就不再一一列出,下面是报告里的一些图片,少量的代码就可以获取如此多的的信息,非常好用。


      titanic.png

    相关文章

      网友评论

        本文标题:数据分析之pandas-profiling一行代码生成超详细数据

        本文链接:https://www.haomeiwen.com/subject/cznpchtx.html