美文网首页数据运营python
广州做数据分析93%月薪在2万/月以下!!!

广州做数据分析93%月薪在2万/月以下!!!

作者: 数据运营python | 来源:发表于2018-10-19 08:12 被阅读1次

    小白:你好,我想咨询一下,像我这样的转行数据分析这个职业有没有前途

    数据运营python:可以通过数据的分析告诉你这个问题的答案,且听我下面的讲解

    1. 数据采集

    分析招聘网站关于“数据分析”职位的招聘信息,通过爬虫框架scrapy获取了前程无忧3万多条招聘信息,并且导出csv文件,具体格式如下,具体的爬取过程可以查看 数据采集

    image.png

    2. 数据清洗

    2.1 数据清除

    对数据进行多维度的统计,展示,发现数据存在错位,缺失

    2.1.1 学历数据错位

    学历的数据里面有招聘人数的数据,这个是因为详情页面的数据结构不规律,导致爬取的数据有问题,由于有异常的数据量占比小,直接对异常的数据进行丢弃处理,通过关键字“招”进行过滤异常的数据


    image.png

    2.1.2 招聘人数数据错位

    招聘人数的数据里面有发布日期的数据,这个是因为详情页面的数据结构不规律,导致爬取的数据有问题,由于有异常的数据量占比小,直接对异常的数据进行丢弃处理。通过关键字“发布”进行过滤异常的数据。


    image.png

    2.2 数据转换

        所属行业信息的数据“金融/投资/证券,奢侈品/收藏品/工艺品/珠宝”需要把每个行业都拆成一行,用于统计各个行业的数量。
        工资的数据格式“6-8千/月”,“0.8-1万/月”,“20万/年”,需要统一为一样的单位“千/月”并把“6-8”这样的范围取最大的值“8”,这样把字符串的内容转换成数量。
    工作经验的格式“3-4年经验”,“无工作经验”需要把数据转换为数字,范围也是取最大的值,“无工作经验”用0表示
       发布日期的数据格式“09-12发布”需要把“发布”字符串去掉,转化成日期格式。

    2.2.1 工资分布--按数量排序

    通过下图可以看到各个工资的数量,以及排列的位置


    image.png

    2.2.2 学历分布--按数量进行排序

    通过下图可以得出结论:该职位大专的需求是最多

    image.png

    2.2.3 行业分布--按数据进行排序

    通过下图可以看出“电子商务”,“互联网”,“金融”,“证券”,“投资”这几个行业的需求量最大


    image.png

    2.2.4 公司类型分布--按数量进行排序

    通过下图可以看出“民营企业”的招聘的数量是其他公司的总和


    image.png

    2.2.5 上班地点分布--按数量排序

    通过下图在“广州-天河区”招聘人数最多,遥遥领先其他区。


    image.png

    2.3 数据挖掘

    前面只是对数据进行数据处理,单维度的展示,让我们对数据有一个初步的了解。接下来是要对数据进行挖掘,通过挖掘的结果回答“数据分析这个职位是否有前途”

    2.3.1 工资分组分析

    对工资按这个分组('1万以下', '1万到2万', '2万到3万', '3万到4万', '4万到5万', '5万到10万','10万以上')进行统计,93%的职位工资在2万/月 以下。


    image.png

    2.3.2 过滤2万/月以上的数据分析

    过滤工资2万/月以上的数据,查看学历的分布,发现“本科”学历最多,查看行业的分布,发现“互联网”,“电子商务”远超其他行业。


    image.png image.png

    2.3.3 工作年限的平均工资

    按工作经验进行分组计算平均的工资,发现4年工作经验的平均工资13千/月


    image.png

    2.3.4 月薪2万/月需要的工作能力

    过滤月薪2万/月的数据,通过对招聘职位的描述的信息进行分词操作,并对拆分的结果进行停用词过滤,进行排序后,通过制作成词云,如果下图。


    image.png

    相关文章

      网友评论

        本文标题:广州做数据分析93%月薪在2万/月以下!!!

        本文链接:https://www.haomeiwen.com/subject/mzzhzftx.html