2 款 Pandas 自动数据分析神器

作者: 逍遥_yjz | 来源:发表于2022-08-18 15:06 被阅读0次

2 款 Pandas 自动数据分析神器
4 款 Pandas 自动数据分析神器，yyds！
简单好用，分享 4 款 Pandas 自动数据分析神器！
Python（金融）数据分析（二）Pandas
今天整理了几个在使用python进行数据分析的常用小技巧、命令。
Python--pandas--基础概念学习
太赞了！这4款Pandas自动数据分析神器
实现机器学习的初步流程
数据分析-pandas从数据库读取数据
Panada——系列Series

我们做数据分析，在第一次拿到数据集的时候，一般会用统计学或可视化方法来了解原始数据。

了解列数、行数、取值分布、缺失值、列之间的相关关系等等，这个过程叫做 EDA（Exploratory Data Analysis，探索性数据分析）。

如果你现在做EDA还在用pandas一行行写代码，那么福音来了！

目前已经有很多EDA工具可以自动产出基础的统计数据和图表，能为我们节省大量时间。

本文会对比介绍 2 款常用的EDA工具，最后一款绝了，完全是抛弃代码的节奏。

正式介绍这些工具之前，先来加载数据集

import numpy as np
import pandas as pd
iris = pd.read_csv('iris.csv')
iris

iris是下面用到的数据集，是一个150行 * 4列的 DataFrame。

1. Pandas Profiling

Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装：
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension

from pandas_profiling import ProfileReport

profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
profile.to_file('report.html')

Pandas Profiling操作界面

每列的详情包括：缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

与 PandasGUI 相反，Pandas Profiling没有丰富的图表，但提供了非常多的统计指标以及相关系数。

2. Sweetviz

Sweetviz与Pandas Profiling类似，提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装
# pip install sweetviz

import sweetviz as sv

sv_report = sv.analyze(iris)
sv_report.show_html(filepath='SWEETVIZ_REPORT.html',
            open_browser=True,
            layout='widescreen',
            scale=0.8)

Sweetviz操作界面