美文网首页编程网赚python_pycham
python3 对拉勾数据进行可视化分析

python3 对拉勾数据进行可视化分析

作者: 9ba4bd5525b9 | 来源:发表于2019-04-21 15:13 被阅读163次

    上回说到我们如何如何把拉勾的数据抓取下来的,既然获取了数据,就别放着不动,把它拿出来分析一下,看看这些数据里面都包含了什么信息。

    一、前期准备

    由于上次抓的数据里面包含有 ID 这样的信息,我们需要将它去掉,并且查看描述性统计,确认是否存在异常值或者缺失值。

    结果中的 unique 表示的是在该属性列下面存在的不同值个数,以学历要求为例子,它包含【本科、大专、硕士、不限】这4个不同的值,top 则表示数量最多的值为【本科】,freq 表示出现的频率为 387。由于薪资的 unique 比较多,我们查看一下存在什么值。

    print(data['学历要求'].unique())

    print(data['工作经验'].unique())

    print(data['薪资'].unique())

    二、预处理

      从上述两张图可以看到,学历要求和工作经验的值比较少且没有缺失值与异常值,可以直接进行分析;但薪资的分布比较多,总计有75种,为了更好地进行分析,我们要对薪资做一个预处理。根据其分布情况,可以将它分成【5k 以下、5k-10k、10k-20k、20k-30k、30k-40k、40k 以上】,为了更加方便我们分析,取每个薪资范围的中位数,并划分到我们指定的范围内。

    对【薪资】进行预处理之后,还要对【任职要求】的文本进行预处理。因为要做成词云图,需要对文本进行分割并去除掉一些出现频率较多但没有意义的词,我们称之为停用词,所以我们用 jieba 库进行处理。jieba 是一个python实现的分词库,对中文有着很强大的分词能力。

    预处理完成之后,就可以进行可视化分析了。

    三、可视化分析

    我们先绘制环状图和柱状图,然后将数据传进去就行了,环状图的代码如下:

    柱状图的代码如下:

    我们再把学历要求和薪资的数据稍微处理一下变成字典形式,传进绘制好的环状图函数就行了。另外,我们还要对【任职要求】的文本进行可视化。

    四、成果与总结

      python数据分析师的学历大部分要求是本科,占了86%。

      从柱状图可以看出,python数据分析师的工作经验绝大部分要求1-5年。

      由此可以得出python数据分析的工资为10k-30k的比较多,工资高的估计要求会比较高,所以我们看一下职位要求。

    从词云图可看出,数据分析肯定要对数据比较敏感,并且对统计学、excel、python、数据挖掘、hadoop等也有一定的要求。不仅如此,还要求具有一定的抗压能力、解决问题的能力、良好的表达能力、思维能力等。

    相关文章

      网友评论

        本文标题:python3 对拉勾数据进行可视化分析

        本文链接:https://www.haomeiwen.com/subject/bmcjgqtx.html