美文网首页大数据,机器学习,人工智能大数据机器学习与数据挖掘
拉勾数据告诉你,如何选择大数据行业切入点

拉勾数据告诉你,如何选择大数据行业切入点

作者: Sudden | 来源:发表于2019-06-06 14:32 被阅读0次

    =========版权所有,如需转载,请联系作者=========

    长文预警:本文5000字,各位看官可挑选感兴趣的章节查看,全部读完体验更佳哦

    这份报告是我正好在一年前(2018.6)写的,基于2018年6月成都地区的拉勾数据进行的挖掘和分析,一年过去了,可以脱敏发出来了,正好给大家做个求职的参考(大家可以与拉勾目前的招聘数据进行对比,从而从时间维度分析一波趋势)。

    完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。

    本文将为你解答:

    • 想搞大数据,该进入哪个行业?-->各行业的大数据人才需求情况
    • 想搞大数据,该选哪个岗位?-->大数据的哪种职位更抢手?各职位的门槛和吸引力如何?各职位的要求共性是什么?哪些职位的老司机更吃香?
    • 你的薪资拖行业后腿了么?
    • 彩蛋:人才价格计算器(附源码)

    注,以下分析均基于2018年6月的拉钩数据

    01 数据说明

    我知道大家都想直接看结论,但作为数据分析师的我还是忍不住想要先说明数据结构,毕竟了解源头才能更理性地看待分析结果嘛。

    本次分析的数据来自拉勾,按照职位关键字,在拉勾网爬取的截至2018年6月的成都地区相关职位信息,清洗去重有效数据2398条,包含以下字段:

    No. 字段 字段意义 处理方法
    1 company 公司名称 /
    2 industry 公司所属行业 字段格式化处理industry_format
    3 stage 公司阶段 /
    4 companysize 公司规模 上下限均值字段
    5 search_zw 职位搜索关键词 字段格式化处理classified_zw
    6 company_zw 招聘信息职位 /
    7 salary 月薪范围 上下限均值字段
    8 workyear 工作年限要求 上下限均值字段
    9 degree 学历要求 大专-1,本科-2,硕士-3,不限-0
    10 positionid 职位编号 用于去重
    11 content 职位描述

    由于仅爬取了拉勾数据,数据样本较小,因此分析结果可能不够全面客观,同时会影响人才价格计算器预测的准确性,不过由于拉勾是目前最大的互联网招聘平台,用此数据洞察大体趋势足矣。若后期有必要,可以从猎聘、boss直聘等招聘网站拓展数据源。

    02 想搞大数据,该进入哪个行业?

    我们先来看看,哪些行业对于大数据岗位需求较大,

    行业 发布职位数
    移动互联网 1319
    电子商务 221
    金融 180
    企业服务 133
    数据服务 116
    信息安全 80
    其他 64
    教育 53
    医疗健康 49
    游戏 45
    硬件 31
    广告营销 25
    O2O 23
    旅游 16
    生活服务 16
    社交网络 14
    文化娱乐 6
    招聘 1

    可以鲜明地看到,移动互联网、电子商务、金融行业对于大数据岗位的诉求远高于其他行业,其中移动互联网远超第二名,移动互联网多对应手机应用,这类行业对于数据仓库、前端、算法、推荐系统等技术的需求较大。从18年的市场来看,电商大数据、金融大数据(Fin-tech)的发展较其他行业早,资本也较多的投入了这两个行业,不过目前来看(19年),教育+大数据也开始升温。

    让我们继续下沉,看看各行业对于大数据岗位的需求情况,

    金融、电商行业对于分析师的招聘需求较大,这两个行业更注重数据分析后产出的信息对电商、金融行业的指导作用,可能将偏技术的工作外包给数据服务等第三方公司,让我们看看是不是这样,

    结果比较吻合我们刚才的假设,数据服务行业更注重技术,招聘需求集中在java、前端、算法、挖掘等技术性岗位。

    再来看看广告营销行业的情况,

    与预想的不同,广告营销行业的算法工程师需求最大,对于数据分析师的需求量反而很小,该行业可能对应推荐算法、精准营销有强烈的需求。

    03 想搞大数据,该选哪个岗位?

    先来整体看看,大数据行业需要哪类人才,java、前端、数据分析师岗位的需求是最大的。

    职位 发布职位数
    java工程师 1033
    前端 803
    数据分析师 159
    算法工程师 115
    产品运营 68
    测试工程师 64
    产品经理 54
    数据挖掘 36
    建模工程师 22
    爬虫工程师 25
    产业研究员 19

    3.1 职位门槛和吸引力

    如何衡量一个职位的门槛有多高,一个职位的吸引力有多高呢? 搞一个门槛指数和吸引力指数如何。

    • 门槛指数:某职位的学历分布比例、工作年限要求分布比例的加权求和表示该职位门槛,衡量入职该职位的难易程度,公式如下,
    • 吸引力指数:某职位提供薪水比例加权除以该职位门槛指数,衡量该职位对求职者的吸引力,公式如下,

    据此,我们对比以下数据分析师、数据挖掘、算法工程师这三个比较热门的职位门槛和吸引力情况,

    可以看到,数据分析师门槛最低,数据挖掘门槛高于算法(这里存疑,因为本次数据中数据挖掘职位数量较少,门槛指数参考性较低,实际可能是算法工程师门槛更高);结合薪资来看,数据挖掘岗位的吸引力最大,其次是算法工程师。

    3.2 哪些职位的老司机更吃香

    我们知道,随着工作年限的增长,人才薪水也会增加,但是不同岗位,薪水增长速度是不一样的,哪个岗位的老司机更加吃香呢?

    下面我们根据前述岗位的门槛、天花板,选取几个有代表性的岗位进行分析:数据挖掘、数据分析师、算法工程师,看看各个职位的“老司机吃香指数”。

    先从整体看看这个趋势:随着工作年限的增长,薪资呈类指数增长的态势。

    下面我们深入到各职位看看薪资增长态势,

    可以看到,

    • 数据挖掘,起薪较高,前3年属于一个经验积累阶段,此阶段的薪水变化不大,说明人才市场对于0-3年经验的数据挖掘更偏向于一视同仁,其中1-3年工作经验的低薪水较0经验低薪水普遍向上提升3k左右,0经验的招聘需求中可能有实习岗位的影响。随着工作经验的增加,经验>3年后人才价格有一个大幅增长,5-10年的经验薪水中位数可达28k左右,但此岗位是一个新兴岗位,需求量巨大但大学教育的人才输送尚未到达,社招转岗人才较多,因此造就了此岗位老司机的高薪水;

    • 算法工程师,1年及以下的职位多数属于实习职位,因此薪资较低,而正式工作岗位(>1年工作经验)的起薪高(门槛高),并且随着经验增加,薪水增长较快,经验超过3年后的薪水涨幅超过数据挖掘岗位,因为算法对于数学、统计学、编程等知识要求更高,一般都是科班出身的高素质人才,成长空间更大;

    • 数据分析师,起薪较低(门槛低),3年以下的经验薪水都较低,数据分析岗位更偏重于工具的使用以及按照分析模板输出报告等,对于独立创新性分析能力并不像产业研究员那样高,随着经验增加,薪水增长较慢,5-10年的经验并不一定比3-5年吃香,天花板较低。

    刚才是直观的分析,下面我们定量分析一波

    定义老司机吃香指数,衡量各岗位在各工作年限要求下月薪中位数的变化情况,如下

    计算结果如下,

    可以看到,java工程师中的老司机最吃香,吃香指数达26.9,高出第二名算法工程师8个点,该行业较其他行业起步早,已经渗透到技术的方方面面;算法工程师中的老司机吃香指数第二,该职位对理论基础要求较高,高级人才需要结合实践、时间积累才能培养出来,因此老司机抢手;测试工程师天花板较低,老司机价值不大,员工可在短时间内积累足够的经验胜任该职位,因此老司机价值不如其他行业大。

    3.3 我能胜任这个职位么?

    下面我们进一步分析几个热门职位的岗位要求,处理过程可以参考这篇文章

    算法攻城狮

    算法工程师能力要求(左图)主要集中在模型、数学、编程等偏理论性的能力上;技能要求(右图)主要集中在Matlab、Hadoop、Java、Python等偏数学统计、数据库、建模等方面的软件或语言上。

    数据挖掘工

    数据挖掘能力要求(左图)主要集中在建模、聚类、分类、统计、回归、文本处理、标签等偏实际应用的方面;技能要求(右图)主要集中在Python、SQL、SAS等偏挖掘、统计的工具上,对于Hadoop等数据库相关的技能要求没有算法工程师那么多。

    数据分析狮

    数据分析师能力要求(左图)主要集中在行业分析、报表统计、报告专项等方面,要求具有较高的业务思维和对行业的深刻理解;技能要求(右图)主要集中在Excel、SQL、PPT等偏展示性的工具上,对于python等技能的要求没有数据挖掘多。

    Java攻城狮

    Java工程师能力要求(左图)主要集中在编程、架构设计、数据库、分布式等方面;技能要求(右图)主要集中在Java、Spring、Linux、Oracle、HTML等方面,更加偏向于底层语言。

    前端攻城狮

    前端能力要求(左图)主要集中在可视化、网页、浏览器、工程化等方面;技能要求(右图)主要集中在CSS、Web、UI、HTML、Javascript等方面,与Java工程师的技能要求差异明显。

    04 你的薪资拖后腿了么?

    接着,我们来看看薪资统计情况,

    你的薪资拖行业后腿了么?

    1. 广告营销行业的月薪中位数最高,金融、电商行业的月薪均值较高,由于数据分析对于这些行业有较强的指导作用,能够产出较大价值(如广告营销+大数据=增长黑客/数字营销、金融+大数据=Fin-tech金融科技)

    2. 广告营销的低薪水普遍高于其他行业,入职门槛较其他行业高(高薪水意味着高要求),并且有很大的增长空间,大部分广告营销岗位集中在高薪水范围

    3. 移动互联网、电商、金融行业的薪水有极高值出现,说明成都地区对于这些行业有高端职位提供,也说明这几个行业目前与大数据磨合比较成熟,有一定的商业模式,能够提供高薪水

    你的薪资拖职位后腿了么?

    1. 数据分析师、建模工程师、爬虫工程师、测试工程师、产品运营的月薪整体分布较低(上下四分位数),入职门槛较低(下四分位数),天花板也不高(上四分位数),对于建模工程师的低薪水有疑问,于是下探数据发现建模工程师的职位描述偏重于单环节的运用模型、整理汇总等工作,并非复合型人才,因此认为数据合理,这些较低薪水的岗位描述以单技能、或者技术含量不高(没有差异性)的工作为主

    2. 数据挖掘、产业研究员、算法工程师的薪水中位数偏高,这些岗位以综合性技能、经验积累、高技术含量为主,因此薪水偏高。其中产业研究员的中位数较高,说明大部分产业研究员的市场价格还是很高的,这部分高薪水产业研究员可能要求较高的经验,后续我们下探分析。数据挖掘、算法工程师薪水下四分位数较高,这两个岗位技术含量高,入行门槛高

    3. 单维度分析发现java工程师职位数量最多,说明这个职位在成都需求量大,很是火热,但从薪资统计分布来看,薪资主要分布在10-15k之间,有较多高薪水的极值点,该行业较其他行业起步早,java已经渗透到技术的方方面面,行业薪资已经有一个比较确定的范围,对于老经验的人才该职位也能提供较为高的薪水

    05 彩蛋:人才价格计算器

    你可以用这个计算器,计算你在人才市场卖的了什么价~

    根据上述分析,我们知道,人才价格与求职者经验、求职者学历、求职岗位、公司规模密切相关,于是,我们想设计一个计算器,输入上述信息,就可以预测某个人才的市场价格。

    整个计算器设计思路如下:

    KNN分类器改进版(改进输出为离散值)——认为离输入x最近的k个点对应的月薪均值的均值是x的输出,

    • k默认为 训练样本数/100+1
    • 距离度量为欧氏距离
    • 决策规则:加权距离最近的k个点的y的均值
      • 加权距离:根据不同岗位下,学历、经验、公司规模与薪水的相关系数,计算输入x与训练集x的加权距离
      • y的均值:为了改进输出为离散值的问题,认为离输入x最近的k个点对应的月薪均值的均值是x的输出

    输入输出

    输入:求职职位、工作年限、学历、所求职的公司规模
    输出:在指定求职职位、求职公司规模、经验和学历的条件下,人才的市场价格(月薪均值)

    说明

    由于数据集是成都地区大数据相关行业数据,因此本计算器仅对成都地区适用,可以通过增加其他地区(如北京、上海、广州等)的数据来设计不同地域的人才价格计算器(算法原理一样,只是数据集不同而已)
    由于数据量有限,特别是细分到不同职位的数量,因此对于数据量较小的职位,计算器的计算结果不准确,可以通过增加样本数量来提高计算的准确性。

    不足

    没有将职位描述这个信息量丰富的长文本纳入建模
    改进:可加入职位描述关键词与求职者能力关键词匹配,影响月薪水平

    使用体验
    Step1 输入求职职位

    Step2 输入求职公司规模

    Step3 输入求职者工作年限

    Step4 输入求职者学历

    Step5 duang~ 得到此人才的市场价格

    源码

    已上传到github,点击查看

    篇幅有限,这里是简化版,完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。

    感谢观看,以上为基于2018年6月的拉勾数据,仅供参考,如果与现在的数据进行对比,还可以分析出趋势变化,更有意思,抛砖引玉,希望有小伙伴可以继续分析下去~~

    相关文章

      网友评论

        本文标题:拉勾数据告诉你,如何选择大数据行业切入点

        本文链接:https://www.haomeiwen.com/subject/arvyxctx.html