美文网首页大数据平台组件技术PythonPython
数据探索神器:Pandas_profiling

数据探索神器:Pandas_profiling

作者: 四毛m | 来源:发表于2020-03-03 20:17 被阅读0次

    写在前面的话

    • 开始做数据分析,最头疼的就是数据探索和清洗了。Pandas里面有很多函数用于初步探索和分析,例如pd.describe()。
    • 今天逛着逛着,发现了一个数据库,能够用一行代码就实现原始数据集的概览分析并生成html文件,这对我们对数据分布的大致情况很有帮助滴。
    • 不过我在安装过程吃了很大的苦头,折腾了整整一个下午才搞定,所以想和大家也分享一下,避免和我一样踩坑!

    1.先看一下它强大的report功能

    image.png

    从截图可以知道,report由5部分组成,分别是

    • 1.Overview(数据概况):包括列数、行数、缺失率、重复率、变量类型、内存以及对数据的最终结论warning。


      image.png
    • 2.Variables(变量情况):对每个变量进行描述性统计分析,包括缺失值、最小值、Q1、中位数、Q3、最大值、标准差、变异系数等,此外还有直观的直方图可以查看。


      image.png
    • 3.Interactions(交互性分析):对每两个变量进行图表展示。


      image.png
    • 4.Correlations(相关性分析):制作变量间的热力图,进行相关性展示,Spearman、Pearson等各类矩阵都可以查看。


      image.png
    • 5.Missing Values(缺失值情况):对全部变量进行缺失值图表展示。


      image.png
    • 6.Sample(数据示例):对数据的前10行和后10行进行展示。


      image.png

    这个信息量很足的报告只需要一行代码就可以完成:


    image.png

    是不是帮我们省了好多力气呀~

    2.安装Pandas_profiling

    安装很简单,因为我自己用的是Anaconda,所以本来想要conda安装的,不过conda里面没有,所以最终使用pip安装的:
    打开cmd》pip install pandas_profiling
    安装完如果你的Jupyter Notebook无法打开,并且显示:[AttributeError: module 'attr' has no attribute 's'],则:
    打开cmd》pip uninstall attr》pip install attrs
    (想想我刚开始打不开Jupyter那痛苦的心情就觉得心塞)

    3.使用Pandas_profiling

    • 1.生成报告:data=pd.read_csv('train.csv')》data.profile_report(title='Data')
    • 2.保存报告:data.profile_report(title='Data').to_file('Data.html')

    相关文章

      网友评论

        本文标题:数据探索神器:Pandas_profiling

        本文链接:https://www.haomeiwen.com/subject/qmlklhtx.html