美文网首页
简单好用,分享 4 款 Pandas 自动数据分析神器!

简单好用,分享 4 款 Pandas 自动数据分析神器!

作者: Alex是大佬 | 来源:发表于2022-03-24 16:38 被阅读0次

    我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。

    了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,探索性数据分析)。

    如果你现在做EDA还在用pandas一行行写代码,那么福音来了!

    目前已经有很多EDA工具可以自动产出基础的统计数据和图表,能为我们节省大量时间。

    本文会对比介绍 4 款常用的EDA工具,最后一款绝了,完全是抛弃代码的节奏。

    正式介绍这些工具之前,先来加载数据集

    import numpy as np
    import pandas as pd
    iris = pd.read_csv('iris.csv')
    iris
    
    3c2dcc3afa049fa4e7792b1b0ffdfe63.png

    iris是下面用到的数据集,是一个150行 * 4列的 DataFrame。

    1. PandasGUI

    PandasGUI提供数据预览、筛选、统计、多种图表展示以及数据转换。

    # 安装
    # pip install pandasgui
    from pandasgui import show
    
    show(iris)
    
    34856b1966a7575d7e2e2ca93d0ba914.png

    PandasGUI更侧重数据展示,提供了10多种图表,通过可视的方式配置。

    但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。

    2. Pandas Profiling

    Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

    # 安装:
    # pip install -U pandas-profiling
    # jupyter nbextension enable --py widgetsnbextension
    
    from pandas_profiling import ProfileReport
    
    profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
    profile
    
    9e487ec90e97194323a9ef2d732feb65.png

    每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

    列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

    PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。

    3. Sweetviz

    SweetvizPandas Profiling类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

    # 安装
    # pip install sweetviz
    
    import sweetviz as sv
    
    sv_report = sv.analyze(iris)
    sv_report.show_html()
    
    d50de24677e32f3c3745b016d4c52d65.png

    Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

    5b0258515a877029859478a1f6a3438c.png

    蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

    4. dtale

    最后重磅介绍dtale,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。

    5a12d978323ec34e1026f3e4b2c6ad8e.png

    dtale的功能主要分为三部分:数据操作数据可视化高亮显示

    4.1 数据操作(Actions)

    dtalepandas的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

    # pip install dtale
    
    import dtale
    
    d = dtale.show(iris)
    d.open_browser()
    
    010a455af61f4c4095b75cb80c212ac8.png

    右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

    举一个数据操作的例子。

    183e9b8d476db5f55eb55e9b5690e83b.png

    上图是Actions菜单中Summarize Data的功能,它提供了对数据集汇总操作的接口。

    上图我们选择按照species列分组,计算sepal_width列的平均值,同时可以看到左下角dtale已经自动为该操作生成了pandas代码。

    4.2 数据可视化(Visualize)

    提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。


    41e5534ed5f65e6492adbdd40457a94c.png

    举一个数据可视化的例子。

    acaf9403f8531bb73860d3a05d250949.png

    上图是Visualize菜单中Describe的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

    右侧的Code Export可以查看生成这些数据的代码。

    4.3 高亮显示(Highlight)

    对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

    378179e6df85306dbf452cbb32400f87.png d974797a239db1d65f474a5a6ca0f642.png

    上图显示了将sepal_width字段的异常值。

    dtale非常强大,功能也非常多,大家可以多多探索、挖掘。

    最后,简单总结一下。如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas ProfilingSweetviz;如果需要做深度的数据探索,那就选择dtale

    相关文章

      网友评论

          本文标题:简单好用,分享 4 款 Pandas 自动数据分析神器!

          本文链接:https://www.haomeiwen.com/subject/jnokjrtx.html