正值秋招季,小白君作为茫茫求职大军中的一颗小豆芽,虽然早已树立了自己的小梦想——成为一名优秀的数据分析师,然而,实现起来,真真是不容易啊!于是,小白君决心用学习来欢度国庆&中秋。可是……我究竟该学习些什么技能才是企业所需要的呢?还好有棵大豆芽:这还不简单,把招聘网站的招聘数据爬下来做个数据分析呀,既能自己体验一下如何做数据分析,还能得到你想要知道的信息。哈,不愧是大豆芽,吃的肥料比我多,给大豆芽点个赞。
于是,小白君开始了数据爬取与分析。
数据爬取
数据来源:拉勾网
实现工具:python2.7,IDE PyCharm 2017
此处介绍爬取数据基本思路,具体代码见本人GitHub项目^_^
https://github.com/zoeztt/spider_lagou
首先进入拉勾网招聘首页,输入职位:数据分析。
点击f12或ctrl+shift+i查看源码,选择network,在输入框输入json,选择第一个打开:
首先选择Response,查看其中是否包含想要的信息,如果有,再查看Headers。若没有,继续寻找,直到寻找到Response包含所需信息的文件。此处选择的文件Response中包含我们所需的信息。所以直接进行下一步,查看Headers。
首先查看请求地址与请求方式,请求方式分为两种:GET以及POST,GET可以直接通过地址进行访问,POST需要使用表单参数进行访问。此处我们可以看到请求方式为POST,所以我们需要寻找表单参数。而且,为了获得完整信息,我们还需要使用Request Headers,告诉服务器我是谁,我想要访问谁。
然后我们就可以模拟浏览器请求,获取页面内容了。此处获取的内容为json格式,我们可以解析json数据,将其转变成字典格式。
可以发现,当前获取的json数据是每页招聘岗位的摘要信息,而我们想要获取更加全面详细的描述信息。此时,我们可以考虑进入一个职位招聘页面,继续查看其源码。
这次,我们选择的是html文件。跟之前一样,首先通过查看Response找出包含所需信息的文件。然后选择Headers,查看请求地址和请求方式。可以看到此处请求方式为GET。同理,需要使用Request Headers,告诉服务器我是谁,我想要访问谁以获取完整信息。
对获取到的html内容进行解析,找出我们需要的职位详细描述信息——岗位职责与任职资格。
此处需要注意的是,我们每次获取得到的json数据为某一页的职位数据,而我们想要分析的职位可能不止一页,此处可以利用表单参数对页面id进行循环,多次请求页面访问与数据读取。
主要用到的python库为urllib2(用于爬取数据),json(用于解析json数据)与BeautifulSoup(用于解析html数据)。
数据分析
根据“数据分析”关键字共检索到岗位数量2370个,其中招聘公司1279家,分布在36个城市。
1.哪些城市的数据分析岗位需求较多
从图中可以看出,招聘岗位数量最多的前五名分别为北京、上海、深圳、杭州、广州(排名分先后),占职位总数的83%。其中,北京在数据分析岗位开放的职位数量和公司数量都远远多于其他城市,职位数量差不多是上海的2倍,深圳的3倍,杭州、广州的5倍,公司数量差不多是上海的2倍,深圳的3倍,杭州、广州的4倍。杭州和广州在数据分析岗位开放的职位数量和公司数量基本持平。
数据分析职位在城市分布的热力图小白君,看来想要找数据分析相关工作还是要去大城市呀!机会多多,嘿嘿…
2.企业对工作资历的要求及其薪资情况
总体看来,大部分企业对应聘者的工作资历要求都在1-5年,且工作资历在3-5年的更有可能获得高薪资30K以上,平均职位数量也最多。而工作资历在1-3年的,薪资主要分布于6K-25K,平均职位数量也相对较多,只比工作资历在3-5年的少一丢丢呢。工作资历在5年以上的招聘数量较少,可能是因为大部分企业不会有如此高的资历限制或很多的专家需求。而工作资历低于一年的求职者与应届毕业生因为工作经验不足,所以企业的认可度可能相对较低,招聘数量也比较少。
还可以看到,不限工作资历的招聘岗位里有相当大的比重给出了11K以上的薪资,说明在互联网领域也有一部分企业比起经验更看重能力。
小白君作为校招求职者,只有更关注那些更看重潜力的招聘岗啦!
3.哪些行业的数据分析岗位更诱人?
【备注:在拉钩网上,每个公司给出的行业标签往往多于1个,在这里小白君选取拉钩网上给出的第一个行业标签进行统计,数据难免会有一定出入,但是整体仍具有代表性】从图中可以很直观地看出,移动互联网公司无论是职位数量还是薪资水平都远远高出其他行业,职位数量超过了总职位数量的一半,而且很多职位薪资都超出了30K!30K!30K!金融与电子商务行业对数据分析岗位的数量需求与给出的薪资水平相差不是很多。若想要从事数据分析工作,还可以考虑数据服务、企业服务与O2O行业。其余如教育、文化娱乐等行业的需求就相对要少得多了。
小白君,听说行业选择很重要呢,该选择哪个行业呢(托腮)
4.公司发展阶段与对数据分析岗位需求的关系
一眼望去,上市公司作为行业的领头羊,对数据分析岗位的需求数量与薪资水平要明显高于其他发展阶段公司,职位数量差不多是成熟型(D轮及以上)的2倍。成长型(B轮)与成熟型(不需要融资)对数据分析岗位的需求数量与薪资水平相差无几。紧随其后的成长型(不需要融资)、成长型(A轮)、初创型(未融资)与成熟型(C轮)都有着相差不多的岗位数量需求。而初创型(天使轮)与初创型(不需要融资)对数据分析岗位的需求数量与薪资水平就要相对较低了。不过我们可以发现,在互联网企业,薪资高于30K也算是一个相对普遍的现象了,怪不得有人说20K是白菜价呢(偷笑)。而且成长型公司对数据分析岗位的需求数量还是蛮多的,给出的薪资也很不错呢!
小白君,好想做一株大白菜!
5.数据分析岗位职责有哪些?
数据分析,用数据说话。作为一名数据分析师,就是要把自己想象成小柯南,从数据中寻找真相。根据用户需求,用自己的专业能力,从数据中通过建立模型挖掘有用信息,以报告的形式呈现给用户,为其提供产品运营、业务管理、决策制定等的科学严谨的辅助需求。
小白君,真相只有一个!
6.企业需要的数据分析技能有哪些?任职资格有哪些?
这个可能就要从数据分析流程去考虑啦。数据分析流程一般分为数据获取—数据存储与提取—数据预处理—数据建模与分析—数据可视化几个步骤。
数据获取除了我们自己搜集数据,还可以去下载公开数据集,或使用爬虫爬取网站数据。这个时候,Python就可以上线了。
如今已进入了大数据时代,对数据的存储与管理也有了更多的要求。此时,SQL可以登场了。SQL作为经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取效率大大提升。其中,MySQL是当下最流行的关系型数据库管理工具之一。Hive数据仓库、Oracle数据库也经常被提起。Excel因其良好的表现,仍有很多戏份。
很多时候,我们搜集到的数据可能会存在噪音或冗余信息,或者对于不同目的的数据分析,所需的数据集会相应地有所不同。此时,我们就需要对数据进行预处理。
接下来,就是很重要的一个环节:数据建模与分析——数据分析师通过自己的专业能力从数据中寻找用户需要的“真相”。那需要哪些专业能力呢?主要是统计学基础知识与机器学习算法。而且,既然是对数据的处理分析,数学当然也很重要啦。
对于数据预处理以及建模与分析,需要我们有好的平台与工具。主流平台与工具有:Hadoop,Spark,Python,SAS,SPSS
最后就是数据可视化。数据分析师已经从数据中通过建模分析得出了结论。但是,最终目标是要让用户了解,为其提供科学的决策依据。这个时候,就需要做一份简洁明了的数据分析报告,将数据可视化。此时,最平民的当属Office办公软件:Word、Excel与PPT了。
既然分析结论是为用户提供的,良好的沟通能力当然是必不可少的。团队协作能力是对任何一个雇员的基本要求。计算机能力更是当今社会必备生存技能之一。熟悉与熟练且是对雇员能力水平的要求。数据挖掘作为数据分析的核心技术,扮演着相当重要的角色。
词云图的轮廓背景是小白君的一寸骗照,O(∩_∩)O哈哈~这个还蛮好玩的。感觉可以写个情书然后绘制一个桃心词云图和喜欢的女生表白啦(偷笑)
网友评论