要学python吗？智联招聘告诉你！

作者: 文子_7bfb | 来源:发表于2019-02-13 22:42 被阅读0次

要学python吗？智联招聘告诉你！
如何真正的学会，学好python，5分钟？8个月？一辈子？
google搜索技巧
智联招聘这个功能可以引流吸粉你用过吗
智联招聘App架构
海子湖丨笔迹分析系列故事之二：抱歉，请谈谈你都犯过哪些错？
人才中介机构需要办理人力资源服务许可证吗
MASA联手银联智惠开启房地产大数据营销新纪元
年龄歧视是职场公开的秘密
1.17日总结

数据来源：爬取以python为关键字在智联招聘上返回的职位信息

数据采集

1、寻找数据所在的url

a\列表页

通过Chrome查看当前网页里面的响应里面是否包含有页面上显示的数据，比如，在图中搜索了10K-20K没有返回，说明页面上的数据不在当前url地址对应的响应里（建议在判断时尽量搜索数据和英文，因为汉字可能会被编码，所以有时候即使响应里面有内容也搜索不到）

由于响应里面没有我们需要的内容，所以需要去其他响应里面找。响应的内容比较多，挨个找可能花的时间比较久，这里我是先清除了当前所有的响应，然后再点击了下一面，此时响应的链接少了一些，然后再依次找。可以看到页面上的内容在一个JSON字符串里面，对应请求的url地址为：https://fe-api.zhaopin.com/c/i/sou?start=90&pageSize=90&cityId=%E6%B7%B1%E5%9C%B3&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=Python&kt=3&at=56d20126aa02453c841dbe730967fef0&rt=d33493a48f2f4a8dbdcbcf2e4b10f5dc&_v=0.68690445&userCode=633952558&x-zp-page-request-id=ea456405eab849f1b2e3a3d5e5fbb9ca-1547028536778-887626

寻找url地址的规律，可以看出：

pageSize是每一页上的招聘信息的职位数量，默认为90

start是当前页面减1再乘以90，

cityId是职位所在的城市，

kw=Python是我们检索的关键词，

kt=3不知道是啥，试着删除了下，不可以删除，那就保留吧，反正这么短

workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1：是页面上对于工作经验，学历、公司类型等条件的筛选，这里我选择的是不限，对应的都是负1，把这些都删掉后，发现数据的响应没有变化，所以后续直接删掉了。

at=56d20126aa02453c841dbe730967fef0&rt=d33493a48f2f4a8dbdcbcf2e4b10f5dc&_v=0.68690445&userCode=633952558&x-zp-page-request-id=ea456405eab849f1b2e3a3d5e5fbb9ca-1547028536778-887626：这一堆不知道是啥，删除后发现没有影响，果断删除

所以，精简之后的url为https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=90&cityId={}&kw=Python&kt=3，start是用来翻页的，cityid可以根据我们的需要来填入。

b\详情页

由于要了解工作岗位对于python从业者的要求，需要进入工作岗位详情页获取职位相关信息。用与上面同样的方法可以发现，我们需要的数据就在当前url地址对应的响应里。

2、scrapy程序获取数据

a\创建项目：首先创建scrapy爬虫项目，scrapy startproject zhilian,这里zhilian是为该项目取的名字

b\建立一个爬虫：scrapy genspider zl zhaopin.com。zl是爬虫的名字，zhaopin.com是允许爬虫爬取的域名

c\爬虫主程序

在下载中间件中设置代理，降低反爬发生的可能性

这里是以爬取深圳的python职位为例，要爬取其他城市的职位的话可以手动改下城市名称。本来有尝试重写start_requests方法，得到一个start_city_url列表，再用yield循环传递给parse函数处理，但是后面会造成一些城市的page不是从0开始，跪请高手指点呀！

在pipline中对数据进行处理保存

获取的数据长下面这样：

数据分析

1、整合数据

由于是以城市分别获取的数据，首先将这些数据整合到一起

2、数据清洗

1、缺失数据处理

通过df.info()查看数据基本情况，可以看出数据中不存在缺失值，所以这里不需要处理

重复值处理

为避免数据有中重复的职位，以"position_id"为基准，去除重复值

base字段处理

base字段中有些数据是以"城市—区"的形式，统一处理成城市的形式

salary字段处理

salary字段的数值存在三种类型：区间类型，如10K-12K；薪资面议；1K以下。因为后面要分析薪资情况，所以要将薪资格式统一。这里将区间薪资取平均值；薪资面议的记录约占到总记录数的8%，以所在城市的平均值进行替代；类似于1K以下这种直接取1K。以上处理均上excel中实现，感觉用python处理比excel麻烦，还要继续熟练python的使用，哈哈！

3、分析

总体薪资分布

从图中可以看出，工资水平处于9k-13k这一区间的人数最多，其次是5K-9K，这样看起来貌似工资没有传说中那么高。但是从累计来看，有超过一半的工资是高于13K的，并且图中工资的峰值超过了120K，童鞋们，有没有感觉到前途无限呀！

不同学历薪酬分布

总体看来，学历水平越高，工资水平也越高，但博士、硕士和本科在top值上差不多。相比之下，大专学历下的薪资top值低了很多，中专及中技学历下的薪资top值甚至只有最高top值的十分之一，发展受到了限制。其他这一类别看起来像一根线，并且工资水平超过了硕士工资水平的中位数，具体看下：

其他类别的数据只有一条，从salary的格式可以看出，是在处理“薪资面议”时用城市平均工资替代的。由于数据中学历的类别已经比较全面，可以考虑在数据清洗时把这一条数据归为“不限”类别。同时可以看到，不限类别的箱体较宽，几乎包含了中专、中技、大专、本科。

不同工作经验薪酬分布

在对工作经验有要求的情况下，工作经验越丰富薪资也越高。在无经验类别下，工资的上箱体超过了1-3年及1年以下类别的上箱体，通过查看原始数据，发现无经验类别中的岗位很大比例是针对于应届毕业生的，还是有很多公司愿意以较高的薪资吸引应届毕业生呀！

不同城市薪资及岗位数量分布

可以看出，上海、北京、深圳这三个城市的整体薪资水平高于其他城市，且工资工位数接近20k,有没有很动心呀！从岗位数量来看，这三个城市对于python从业者的需求也较大。成都、广州、南京三个城市的岗位需求量与北上深不相上下。可以看出，python的岗位需要主要集中在一线城市，还有一些快速发展的二线城市对python从业者的需求量也较大，工资水平也相对较高

岗位要求云词分析

python从业者的薪资如此有吸引力，童鞋们是不是很想了解下哪些方面是面试官在招聘时比较关注的呢。使用jieba绘制了工作岗位要求的动力，展示效果不是很好，出现了一些重复的词汇，暂时没有找到原因，请大神指点。可以看到，学历和经验是最常被关注的，这对于想转行从事python工作的小伙伴们似乎不太友好，推荐大家有时间可以逛逛Kaggle,上面会经常有一些项目竞赛，可以尝试参与，还有很多大神可以膜拜。除此之外，学习能力、沟通、团队协作等一些方面也是关注的重点。

分析结论

1、从薪资总体的分布来看，python从业者的工资普遍较高，月薪超过13K的超过一半

2、从不同学历薪资情况可以看出，学历越高在工作发展中获得的工资越高，大专、中专及中技生的发展受到了限制，在工资的发展空间上不如本科、硕士及博士生。从工作要求的云词图中可以看出，企业一般要求python从业者具有本科以上的学历，这在一定程度上解释了他们工资空间的差距问题，因为很多python从业者需要了解一些高等数学知识。

3、从不同城市薪资及岗位需求分布情况得出，一线城市对于想从事python工作的人员来说是较好的选择，这些城市一般岗位需求大，工资水平也较高。同时，处于快速发展的二线城市也是不错的选择，如杭州，南京等。

4、从工作要求的云词图可以看出，学历和经验在找工作时是被最常关注的，企业对python从业者有一定的学历要求。除此之外，学习能力、沟通、团队协作能力也很重要。

要学python吗？智联招聘告诉你！
数据来源：爬取以python为关键字在智联招聘上返回的职位信息数据采集 1、寻找数据所在的url a\列表页通...
如何真正的学会，学好python，5分钟？8个月？一辈子？
有很多的小伙伴问过小编，学python要多久。那小编就告诉你，学python只要5分钟，你会信吗? 小编再告诉你学...
google搜索技巧
1. ”site:zhihu.com 前端“ 只搜知乎的内容 2. 前端招聘 -智联 -拉钩去掉智联和拉钩...
智联招聘这个功能可以引流吸粉你用过吗
你用过智联吗有人用过就是找工作但是近期它变了不仅仅可以招聘还可以发广告咳咳咳。。引流吸粉不多说啦...
智联招聘App架构
一、智联招聘App架构模式简介智联App前身智联App一开始是只有一个单独工程在运行的App模式，里面掺杂着各种...
海子湖丨笔迹分析系列故事之二：抱歉，请谈谈你都犯过哪些错？
文／海子湖单位业务扩张，列了新人招聘清单，共二十多个岗位。猎头，智联，前程无忧，各个招聘...
人才中介机构需要办理人力资源服务许可证吗
人才中介公司需要办理人力资源服务许可证吗?我们都知道像智联、前程无忧等等招聘软件，还有一些人才市场都在进行人才招聘...
MASA联手银联智惠开启房地产大数据营销新纪元
房地产+大数据，怎么玩？ MASA-慧赢销 & 银联智惠告诉你…… 银联智惠作为MASA在房地产大数据方面的重要战...
年龄歧视是职场公开的秘密
如果近年来你有过求职的经历，或是你关注过智联、前程、猎聘等招聘平台，你会发现平台上数以万计的招聘信息都会要求应聘者...
1.17日总结
1.群发天气预报 2.boss，智联，58各发招聘信息 3.公司帐号发研学招生信息 4.完善周例会ppt 5.济阳...