美文网首页
2 款 Pandas 自动数据分析神器

2 款 Pandas 自动数据分析神器

作者: 逍遥_yjz | 来源:发表于2022-08-18 15:06 被阅读0次

    我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。

    了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,探索性数据分析)。

    如果你现在做EDA还在用pandas一行行写代码,那么福音来了!

    目前已经有很多EDA工具可以自动产出基础的统计数据和图表,能为我们节省大量时间。

    本文会对比介绍 2 款常用的EDA工具,最后一款绝了,完全是抛弃代码的节奏。

    正式介绍这些工具之前,先来加载数据集

    import numpy as np
    import pandas as pd
    iris = pd.read_csv('iris.csv')
    iris
    

    iris是下面用到的数据集,是一个150行 * 4列的 DataFrame。

    1. Pandas Profiling

    Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

    # 安装:
    # pip install -U pandas-profiling
    # jupyter nbextension enable --py widgetsnbextension
    
    from pandas_profiling import ProfileReport
    
    profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
    profile.to_file('report.html')
    

    Pandas Profiling操作界面

    每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

    列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

    PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。

    2. Sweetviz

    SweetvizPandas Profiling类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

    # 安装
    # pip install sweetviz
    
    import sweetviz as sv
    
    sv_report = sv.analyze(iris)
    sv_report.show_html(filepath='SWEETVIZ_REPORT.html',
                open_browser=True,
                layout='widescreen',
                scale=0.8)
    

    Sweetviz操作界面


    Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

    Sweetviz数据集对比

    蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

    相关文章

      网友评论

          本文标题:2 款 Pandas 自动数据分析神器

          本文链接:https://www.haomeiwen.com/subject/ehbdrltx.html