谨以此文送给即将毕业的学生们
又到一年毕业季,实验室又送走了一批硕士博士。无论是出国做博后,还是留在国内发展,大家总算结束了穷苦的学生生涯,自己多年的努力终于修成正果。诗和远方虽然是美好的,但是找个满意的高薪职位显然更有现实意义。听着毕业生们谈论着工资待遇,我这个毕业多年的老人家也按耐不住内心的小激动,想看看我们这个专业(生物信息学)现在到底有多少“钱景”。
现在的招聘网站有很多,但我个人比较喜欢猎聘网,所以我们今天就来分析猎聘网上的数据。
![](https://img.haomeiwen.com/i2341232/22b272112bd664d1.png)
我们先用“生物信息”做关键词来搜索职位:
![](https://img.haomeiwen.com/i2341232/88e9af11358b1954.png)
我喜欢猎聘网的一个主要原因就是他的搜索结果很合我的口味:
![](https://img.haomeiwen.com/i2341232/b10127bb6f8fed4c.png)
重要的信息一目了然。对求职者来说,最重要的信息无非就是工资(重中之重)、地点、教育背景和工作经验。如果想了解更详细的内容,可以点击职位链接。这样的设计不仅便于求职者浏览,还特别适合用爬虫程序来解析。
搜索的结果是分页显示的,我们点击>|按钮到达最后一页,并记下找到的最大页数(后面的爬虫程序需要用到)。
![](https://img.haomeiwen.com/i2341232/731817789447f9bd.png)
我的爬虫程序利用的是rvest包。策略如下:
- 先用浏览器在猎聘网上搜索,通过浏览器地址栏中的URL弄清它的API有哪些参数(比如key,curPage等)
- 用浏览器查看搜索结果页面的html代码,找到想要提取的element的class,attribute等信息
- 先写一个解析单页面的函数
- 再写一个解析所有页面的函数,实际上就是循环调用上一个函数,直到完成所有页面(这就是为什么要先搞清楚搜索结果总共有多少页)
- 我对解析到的原始数据进行了一些处理:我想要具体的工资数,所以去掉了“面议”的结果;我想知道具体的城市,所以去掉了包含“省”的结果;工资数是一个从最低到最高的范围,我取它们的平均值。
2个函数的代码如下:
![](https://img.haomeiwen.com/i2341232/00d7bdf11547654f.png)
在调用函数的时候,我们只需要2个参数:搜索关键词(keyword)和搜索结果的最大页数(max_page)。除了我的专业外,我还对深度学习技术非常感兴趣,也在努力地恶补相关知识,所以今天也顺便了解一下深度学习的“钱景”如何。其实,从max_page=63就已经能看到它有多火热了。
![](https://img.haomeiwen.com/i2341232/82aede4d8b3ee7f8.png)
爬虫程序得到的结果如下:
![](https://img.haomeiwen.com/i2341232/79b7b85dd125ba88.png)
接下来的工作就是做一点简单的统计:
-
首先是看工资的分布
salary_bioinfo.png
salary_deeplearning.png
生物信息:大约三分之一的职位处于10~15万的区间,25万以上只有10%
深度学习:20万以上的职位就占了90%!40万以上差不多有三分之一 -
然后看看北京、上海、深圳的工资
city_bioinfo.png
city_deeplearning.png
生物信息:深圳有华大,北京有贝瑞和康、诺和致源,上海能叫的出名字的公司是哪家呢?工资水平也反映出了这种地域上差距。上海的同行们要加把劲啦!
深度学习:上海的公司很给力!是我们学习的好榜样! -
再看看学历要求
edu_bioinfo.png
edu_deeplearning.png
生物信息:尽管博士的需求不少,但是大部分职位本科生就可以胜任(跑跑流程而已)
深度学习:最起码读个硕士吧,门槛还是比较高 -
最后是工作经验
exp_bioinfo.png
exp_deeplearning.png
生物信息:如果我把“经验不限”理解为没有经验,那么84%的职位只需要0~1年的工作经验,门槛较低
深度学习:显然对工作经验的要求更高
作图函数如下:
![](https://img.haomeiwen.com/i2341232/5d9e7e91f1bf6c73.png)
调用作图函数的代码:
![](https://img.haomeiwen.com/i2341232/cc6aae0938b865b0.png)
今天R图秀让我充满了学习的动力和拼搏的勇气,为了更高的目标而努力吧!
![](https://img.haomeiwen.com/i2341232/e540a1d0b3ba2dec.jpg)
网友评论