写在前面的话
- 开始做数据分析,最头疼的就是数据探索和清洗了。Pandas里面有很多函数用于初步探索和分析,例如pd.describe()。
- 今天逛着逛着,发现了一个数据库,能够用一行代码就实现原始数据集的概览分析并生成html文件,这对我们对数据分布的大致情况很有帮助滴。
- 不过我在安装过程吃了很大的苦头,折腾了整整一个下午才搞定,所以想和大家也分享一下,避免和我一样踩坑!
1.先看一下它强大的report功能
image.png从截图可以知道,report由5部分组成,分别是
-
1.Overview(数据概况):包括列数、行数、缺失率、重复率、变量类型、内存以及对数据的最终结论warning。
image.png -
2.Variables(变量情况):对每个变量进行描述性统计分析,包括缺失值、最小值、Q1、中位数、Q3、最大值、标准差、变异系数等,此外还有直观的直方图可以查看。
image.png -
3.Interactions(交互性分析):对每两个变量进行图表展示。
image.png -
4.Correlations(相关性分析):制作变量间的热力图,进行相关性展示,Spearman、Pearson等各类矩阵都可以查看。
image.png
-
5.Missing Values(缺失值情况):对全部变量进行缺失值图表展示。
image.png
-
6.Sample(数据示例):对数据的前10行和后10行进行展示。
image.png
这个信息量很足的报告只需要一行代码就可以完成:
image.png
是不是帮我们省了好多力气呀~
2.安装Pandas_profiling
安装很简单,因为我自己用的是Anaconda,所以本来想要conda安装的,不过conda里面没有,所以最终使用pip安装的:
打开cmd》pip install pandas_profiling
安装完如果你的Jupyter Notebook无法打开,并且显示:[AttributeError: module 'attr' has no attribute 's'],则:
打开cmd》pip uninstall attr》pip install attrs
(想想我刚开始打不开Jupyter那痛苦的心情就觉得心塞)
3.使用Pandas_profiling
- 1.生成报告:data=pd.read_csv('train.csv')》data.profile_report(title='Data')
- 2.保存报告:data.profile_report(title='Data').to_file('Data.html')
网友评论