美文网首页
爬虫练习—boss直聘数据相关岗位分析(二)

爬虫练习—boss直聘数据相关岗位分析(二)

作者: 投篮手型差 | 来源:发表于2018-10-10 16:35 被阅读0次

    这是上一篇文章:爬虫练习—boss直聘数据相关岗位分析(一)
    上一篇我们讲到如何获取boss直聘网页的招聘信息,通过爬虫、解析、清洗将数据存储为结构化类型,保存为DataFrame形式。
    数据框形式如下:

    清洗后的数据框
    下面我们就将对这些数据进行简单的分析,以及可视化。本文使用的工具是python、以及python的pyecharts库

    一:描述性统计

    拿到数据的第一步,我们需要思考,我们需要从这批数据中获得那些信息?在拥有11类属性后,最简单的就是描述性统计了。
    1.这批数据中一共有多少条岗位信息?
    2.有多少城市发布了数据相关的岗位?
    3.该岗位对工作经验和学历的需求是怎么样的?
    4.哪些行业对数据分析需求量最大,哪些行业需求量最小?
    5.当前市场的公司实力如何?(规模和阶段)?
    6.哪些公司发布的岗位最多?
    7.数据相关岗位薪资情况如何.......
    当然,类似的问题不胜枚举,而种类问题都属于基础的描述性统计,具体展开又可以涉及各个方面,多属性的交互等,都可以从中挖掘出不少有趣的信息。
    下面是数据处理的代码:将其整理成更规整的数据,以供更便捷的作图。

    import pandas as pd
    import numpy as np
    from pyecharts import Bar,Line,WordCloud,Overlap,Grid,Pie,Geo,Map
    import collections
    import math
    '''
    导入需要的库,可视化选择pyecharts,是echarts在python平台的一个库。可以直接安装pip install pyecharts
    Mac OS未出现什么问题,只是用pyecharts出的图是html格式的,而不是静态的图片。
    '''
    #读取清洗完的数据,路径自行更改
    data = pd.read_csv('/Users/tony/Desktop/招聘岗位数据分析/dt_boss.csv')
    #计算平均薪酬
    a = (data.salary_low+data.salary_high)/2
    data["salary_mean"] = a
    
    #input:data,列名;output:前十type和未筛选type
    def get_describe(data,item):
        mid = data[item]
        #统计列中元素出现次数
        mid2 = collections.Counter(mid)
        #排序
        mid2_sort = sorted(mid2.items(),key = lambda x:x[1],reverse = True)
        #把类别type加入其中
        mid2_list = [list(x) for x in mid2_sort]
        [x.extend([item]) for x in mid2_list]
        #type种类数量
        post_num = [len(mid2)]
        return post_num,mid2_list
    
    #得到整理后的数据框
    List = []
    List2 = []
    name = ['post',  'location', 'industry',  'company','experience','education','stage', 'scale','salary_mean']
    for item in name :
        mid,mid2 = get_describe(data,item)
        #这句同下name_count作用一样
        List.extend(mid)
        List2.append(mid2)
    df = []
    for x in List2:
        df.extend(x)
    DF = pd.DataFrame(data=df,columns=["item","count","type"])
    name_count = list(map(lambda x:len(x),List2))
    

    得到的数据如下:

    DF
    post location industry company salary_mean
    1294 136 80 2450 17k

    对各属性统计发现,在20300条数据中,共发布1294个不同的岗位,包含全国136个城市,共涉及80个行业,2450家公司,岗位平均薪资在17k。17k是真的优秀,看来投身到这个行业是正确的选择呐!,(计算薪酬包含了,高中低岗位、学历、工作年薪所有信息的均值,emm这样一看,工作5年左右的老司机也就勉强达标而已,叹气。。。)

    下面对以上数据进行可视化:

    1.前十岗位排名以及其占到比例

    前十岗位及其比例

    跟数据相关的岗位多如牛毛,那么哪些岗位是市场需求量最大的呢?
    就发布和数据相关的岗位信息来看,数据分析师、数据挖掘、数据挖掘工程师这三个岗位的需求量均远超平均水平,达到接近2k+的岗位需求,说明这几个岗位的名称较为统一,被市场所接受和传播;而观察排名前十的岗位可以发现,数据分析、数据分析专员、数据分析工程师等等,其实都属于数据分析师这一岗位,只是由于等级或者具体细分的领域不同而产生不同的名称而已,除去前四个岗位,剩下的所有1290个岗位需求量均小于500,其中当然也存在刚才提到的,随着领域和职责的细分而衍生出的不同的岗位名称;但总体来看,市场需求量最大的仍然是中级的数据分析师,或者数据挖掘岗位,这部分占了大头,相对的较为低级的数据分析专员和高级的数据分析或者数据挖掘专家之类的,则相对较少,这一现象非常符合正态分布规律。

    2.不同城市岗位需求

    静态图
    岗位地理分布情况
    对比不同城市对数据相关的岗位需求发现:北京、上海、杭州、深圳遥遥领先于其他城市。北京作为独角兽,政治中心和国际都市,其提供的就业机会远超全国其他城市;上海、深圳、广州作为传统的一线城市,岗位机会也在1k~3k之内,而杭州作为近年来发展势头强劲的新一线城市,在数据相关岗位的需求上居然反超深圳和广州,这可能跟杭州未来的发展方向以及阿里等互联网企业有着纤丝万缕的联系;除去这些第一梯队的“超级城市”,对于普通的二线省会城市而言,岗位需求量就平均了许多,在前15个城市中,由于第一梯队大佬的影响,硬生生拔高了该岗位需求量的基线,使得仅5个城市达标,高于均值,这一现象也侧面反映了城市定位以及发展的不同。
    此外,从地域上看,就业机会多集中在长三角和珠三角地区总结来说就是东部沿海地区,中西部地区岗位发布数量明显减少,青海和西藏基本不存在这类岗位。(太惨烈了!)(emm,离大国崛起中国梦还有很长一段距离呐~我就是想说发展不平衡,怎么着吧),可喜的是全国大部分地区都对这类岗位有需求,真的是热门和朝阳岗位啊!总结要想找这方面的工作,优先考虑沿海地区,所以说大城市就业机会多诚不欺我! 不同城市对数据分析岗位需求

    3.相关岗位工作经验及学历要求

    数据相关的工作是随着互联网行业兴起的较为新兴的岗位,那么这些岗位的从业门槛又是如何的呢?

    经验学历要求
    从结果来看,数据相关岗位有定的门槛,首先,对于经验缺乏的求职者(应届生/无经验、经验在一年以内),市场反应冷淡,岗位总量约占1/3;单独来看,市场最中意的求职者还是有部分工作经验的1~5年的求职者,这部分工作者,有一定的工作能力和岗位及社会适应能力,不仅仅是数据相关岗位表现出这类现象,其他岗位也多存在该现象
    对于求职者多学历,市场的表现还是倾向选择本科生,占61.09%,说明这类工作比较看重求职者的综合能力,个人认为,本科素质教育下培养的学生,确实已经帮企业或者社会筛选出一部分人了,而当前社会工作不仅仅局限于本行业或者单一的技能,多学科多行业交叉已经成为普遍现象,所以对从业者基本素质的看重不无道理。值得庆幸和不幸的是,市场对于高学历人才并没有趋之若鹜,从硕博士的要求可以看到两者仅占13.95%,同低学历者比例相近。这种现象第一说明了这类职位并非高大上且高不可攀,需要有人做简单的事,有人做攻坚的事,各司其职而已;同时也反映了该类型岗位现阶段大学生的普遍程度较高,而硕博士远没有达到烂大街的水平,这还是值得欣慰的,如果某一天当硕博成为求职的标配时,不知道是万幸还是不幸。

    4.数据相关岗位集中的行业和未涉足的行业

    行业基本情况
    俗话说男怕入错行,就个人而言,本人属于职场萌新,对行业一无所知,只能先岗位后行业,等慢慢接触了解以后再选择大行业。那么相关岗位都属于那些行业呢?
    查看了对于数据相关岗位需求量前十和倒数前十的行业,不难发现数据这类岗位都是互联网和计算机的附庸,发布的岗位多来自于一下行业:中互联网、移动互联网、计算机软件、数据服务等等,值得意外的是在线教育和医疗健康行业能进前十,说明这两个行业已经接轨互联网,虽然岗位需求量在1k以下,但也表现出了一定的发展势头;反观倒闭前十的行业,(哼,他们是没有前途的)不出意外,果然是属于一些传统的行业,这就很有趣了,是积极融入拥抱这个世界呢,还是固步自封,继续停滞不前呢?这也反映出一些现象,首先,这些行业转型不是一蹴而就的,依托传统的生产工作方式,“数据”对其而言确实是次要的,学术/科研、制药、农/林/牧/渔、珠宝等,一来自身未建立数据仓库,不注重数据的获得和积累,二来好像平时工作也用不到什么数据嘛,不过万物皆有联系,笔者是林学出身,对于林业有一定的认识和理解,拿林业举例,如何监测全国范围内的森林资源,这一命题马上就能和数据挂钩,因为遥感数据是海量的,不光光是农林行业,其他行业也有类似的应用场景。
    嗯,伟大的无产革命作家鲁迅曾经说过:

    “大数据是未来的趋势,数据相关的岗位还是大有可为的!”呸,老子什么时候说过这些!

    5.市面上的公司实力如何?

    市场上公司鱼龙混杂,那么大部分公司的现状又如何呢?

    公司提供的岗位
    选取最需要数据相关岗位的公司前15名,不难发现,都是大佬公司,腾讯,京东,滴滴出行占据了前三位,需求量都在250+左右;百度,今日头条,阿里也紧随其后,需求量也超过150+;不难发现这些全都是互联网公司,他们的共同特点就是差不多是国民企业了。其用户使用的产品每天都在产生巨大的数据量,也不难解释,为什么这些公司对数据相关岗位的需求量如此之大了。
    市面上的公司实力情况
    而在如此多的公司之中,上市公司居然占了23.01%,分到接近1/5的蛋糕,与此呼应的则是不需要融资的小公司,占22.23%;公司规模令人感到意外,有超过100人的公司居然占总数据的71.86%,这就意味着,只有达到一定规模的公司才需要专门的数据人才。

    6.岗位薪酬待遇情况

    说了那么多,终于来到了最重要的一个问题,数据相关的岗位薪酬如何呢?


    薪酬情况

    由于存在薪酬范围,数据取的是一个岗位的平均薪资,就结果来看,这一职位待遇在15k以上的占比71.03%,却也存在如同4-6k这类的底薪情况,考虑到之前提到的,个人薪酬水平受个人素质(受教育程度,工作经验)决定,在未区分这类因素的前提下讨论薪酬都是耍流氓。但是就该结果来看,该类型的岗位依然属于高薪岗位,介于前文提到的,招聘着青睐对象是有1-5年左右工作经历的求职者,那么这个经验对应这个薪酬,也属于合理范围。


    在讨论了一些数据相关岗位在当前招聘市场的基本情况后,相信已经对这一岗位的大致状况有了一定了了解,那么下一篇文章,我就要从多维度,来解读这些数据背后的含义了。
    此外,仍需要获取一定的岗位技能或者岗位职责等数据,后续会继续补充~
    感谢看完全文的你,给你比心❤️!

    相关文章

      网友评论

          本文标题:爬虫练习—boss直聘数据相关岗位分析(二)

          本文链接:https://www.haomeiwen.com/subject/ytquaftx.html