最大的作用可能就是数据处理前,观察了解一下数据结构。
1. 安装pandas-profiling
pip install pandas-profiling
2. 使用pandas-profiling
先导入需要的包
import pandas as pd
import pandas_profiling
读取数据并生成报告
这里以泰坦尼克数据集为例,调用profile_report方法生成EDA分析报告
没有数据集?【这里下载!】
data = pd.read_excel('titanic.xlsx')
jupyter查看报告
pandas_profiling.ProfileReport(data)
也可以使用to_file方法另存为.html文件
profile = data.profile_report(title="Titanic_data")
profile.to_file(output_file="c:\\Titanic_data.html")
3. 查看报告
上面简单几步就可以搞定啦,现在我们来看下生成的报告
可以看出报告大体由5部分组成,分别是
- 数据集概况(基本信息)
变量数(列)、观察数(行)、数据缺失率、内存;
数据类型的分布情况
- 每个变量的详细情况
要点:类型,唯一值,缺失值
分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度
- 相关性分析
- 缺失值情况
-
样本信息
具体就不再一一列出,下面是报告里的一些图片,少量的代码就可以获取如此多的的信息,非常好用。
titanic.png
网友评论