美文网首页成长励志精选推荐阡陌美文有些文章不一定是为了上首页投稿
爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该

爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该

作者: 寻找不同的蜜蜂 | 来源:发表于2018-06-03 23:34 被阅读2720次

    文/寻找不同的蜜蜂

    51 job作为全国发布招聘信息最大的网站之一,为应届生和在职人员提供很好的求职平台。只要在搜索窗里面输入目标职位,百至千页的招聘信息触手可及。

    记得几年前找工作时,一页页翻,点进去看职位需求等等。遇到心仪职位(500强,高薪,出国机会等等),将职位名称、公司名称、薪水和网址拷贝到Excel中,最后,注明投简日期,做到对发出去简历跟进,也算是很好管理了简历的去向。

    51 job 信息板块

    就像做项目一样,跟进每一份简历的时间节点,做到了如指掌。但是,仔细想想,这中间是否存在一些潜在问题?似乎,当时是没有觉察到。

    仔细回想这个流程,发现,从网页拷贝这些招聘信息到Excel,累计至少200+职位。假如拷贝一次心仪职位的时间为20秒(职位名称、薪资、单位名称、地点和网址),那么就重复粘贴的时间就耗费66分钟。(实际情况,会比这个时间长)

    这似乎是之前完全没有意识到的一件事情。查看几百个职位信息已经上限,几千页的信息也只能放弃。这个,我想找工作的你,深有感触。

    在频繁粘贴之余,也曾发出过这样的感叹,要是这些信息,能直接汇总到Excel中,就好了。直接快速查看目标职位,遇到感兴趣职位,再去看具体信息。这不但极大提升信息的检索效率,而且有利于分析做出最终的选择。

    但是,那时最想说的一句话:“别想这些没用的,赶快投简历!”

    现在想想,这种人为翻网页,是无法最大化获取信息。换句话说,你在无形中已经丢失一些机会,说不定这些机会,会改变你的人生轨迹。

    你也许会说,不就是一页页翻着看吗?那么,我想请问你,面对有2000+页的职位信息,你能看多少页?500+页可以封顶了吧!再往后看,你的耐心,最终,也会沦为烦躁。

    1/ 信息获取

    互联网时代,是一个信息过载的时代,我们每天被各种各样信息包裹。招聘信息科学全面获取,对你做出正确求职选择,有极其重要的作用。那么,怎样才能在极短时间,获取这些信息为你所用呢?

    爬虫,或许,是当下,最有用的工具了!几行代码,爬取你想要的任何信息。一张excel表,记录你投递的所有职位。这是多么高效的事情。而且,通过可视化这些信息,还有意想不到的收获。

    采用requests+beautifulsoup组合,通过for循环选择特定的信息,如抓取职位名称,CSS选择器可以写成p span a。需要注意的是,一定要区分子父节点之间的从属关系,否则无法找出想要的信息。

    信息获取

    其实,爬取招聘信息,无外乎那几个步骤。写完一个,运行一下,看是不是你需要的信息。在获取文本后,会出现不需要的空格和换行。strip()和replace(“\n”,“”)可以将其去除,方便又简单。

    就拿JAVA工程师职位为例,总共8700个职位,最终爬取到Excel表格中,这样可以清楚的看到每一项职位对应信息。真的,不要太方便。

    爬取数据汇总

    但请注意,不要爬太狠,中间不休息,一口气爬个上千页,这样会产生大量的流量。影响其他用户。被检测出来,封IP的可能性非常大,慎重。

    我的办法是,设置时间间隙,爬一页休息5-10秒,再继续。这样就很好的模拟用户浏览网页所打开网页的时间。(使用IP池这种高端手段,目前,还一脸懵,后面学习一下)

    当拿着这份招聘手册,是不是一览众山小的感觉呢?挑出你的目标薪资/地区,再仔细查看招聘内容,这样会更高效。

    2/ 数据可视化

    面对这些大数据,难道就不想了解一下更为详细的信息?比如,各个行业招聘,哪些地区比较集中,需求更大?媒体中报道的一些行业,需求真的那么大?

    数据可视化,将是一个非常犀利的工具。通过这个可视化模块,可以一览各个行业在全国各地的分布,这样你会有一个直观的认识,对后续选择判断,做出决策会有帮助。

    可视化模块

    3/ 大数据分析

    在本次分析中,爬取汽车行业2类职位(技术支持和结构设计),互联网2类职位(java工程师和测试工程师),房地产2类职位(室内设计和财务经理),金融行业2类职位(融资专员和金融分析),总计4个行业,8类职位,共计60000个岗位。

    4个行业,8类职位,共计60000个岗位

    3.1/ 地理位置分布分析

    1) 汽车行业

    通过对汽车行业,2类岗位在全国分布可知,高密集区域在上海及其周边城市(以大于105为最低取值点)。

    技术支持岗位 结构设计岗位

    2)互联网行业

    通过对互联网行业,2类岗位在全国分布可知,高密集区域分布为:北京、上海和广州(以大于105为最低取值点),呈现三足鼎立的态势,构成了互联网行业的金三角。

    Java工程师岗位 测试工程师岗位

    3)房地产

    通过对房地产行业,2类岗位在全国分布可知,相比汽车和互联网行业,需求分布较为均匀(以大于105为最低取值点)。

    室内设计岗位 财务经理岗位

    4)金融

    通过对金融行业,2类岗位在全国分布可知,高密集区域分布为:上海和广州(以大于105为最低取值点)。

    融资专员 金融分析

    3.2/ 行业所在城市分析

    统计前提,8类职位中,只要有1类职位需求大于100, 则统计该职位所在城市。

    全国有22个城市符合以上前提(排除异地招聘以及省名称命名地点)。可以明显看出,高需求的城市主要集中在上海、广州、深圳、北京、杭州、武汉和成都。其中,上海的需求遥遥临先,高达10000+。

    全国22城市,统计8个职位总需求分布 全国22城市,统计8个职位详细需求分布

    1)一线城市

    北京,主打互联网,约2000+个岗位(占4个行业总和50%以上),金融和汽车次之。

    上海,汽车(3000+)、互联网(3000+)和金融(3000+)。进一步说明,上海的机会确实很多,就当前8类职位而言(10000 +),让很多城市无法PK。

    广州和深圳对融资专员的需求高的惊人,共计6500+。换句话说,从事金融行业,去这两个城市打拼不会错。

    一线城市,需求汇总

    2)部分新一线城市

    成都,4个行业需求基本持平。

    杭州,也是互联网行业的聚集地,占本市需求的60%以上。

    武汉、南京、郑州和长沙,汽车和互联网需求较高,总和超过60%。

    西安,互联网和房地产占本市需求的60%以上。

    东莞,金融占本市需求的35%。

    重庆、苏州、无锡和天津,汽车行业为主,约占4个行业总和的50%。

    新一线城市,需求汇总

    4/ 总结

    通过大数据,对当前招聘市场有一个理性和科学的认识,为判断和决策提供一些数据上的依据。

    数据只有当可视化以后,才能显示出它巨大的作用,数据测算,行业预知,也只是时间问题。

    以上分析,希望对找工作的你,在做决策时,提供一些帮助。

    (以上数据,均爬取各自职位对应最大页数(分析基于8类职位)。数据可能会存在重复,仅供参考。)

    相关文章

      网友评论

      • 互加计划_蒋丝丝:作者常用的可视化的工具除了思维导图,词云还有哪些呢?不知道地图分析是怎么出来的
        寻找不同的蜜蜂:@互加计划_丝丝蒋

        地图出自python的一个库,pyechart, 非常好玩:grin:

        可以试一试:smirk:
      • 048d00cadf89:可以分享源码学习么:smile:
        寻找不同的蜜蜂:@陈锋同学

        待我优化一下吧:joy::joy:

        写的繁琐。
      • Cloudsir:济南这么差劲吗?
        寻找不同的蜜蜂:@Cloudsir

        当时是按大于100,统计为基准,其它城市,就被过滤了:joy::joy::joy:

        但不排除,现在需求会增长哦:joy::joy::joy:
      • 白_明:知道啥叫 危害信息安全罪么?
        寻找不同的蜜蜂:@昂皇流

        感谢普及法律知识,谢谢:pray:
      • 狤皇叔:向作者学习
        寻找不同的蜜蜂:@狤皇叔

        相互学习:stuck_out_tongue_closed_eyes:
      • 洋_iOS:老司机,爬虫咋去学习,看书,看视频,网上搜资料?
        寻找不同的蜜蜂:@洋_iOS

        学习心得,已载入,请参照:smirk:
        寻找不同的蜜蜂:@洋_iOS

        我也是小白哦,简书里面很多大神。

        最近在写一篇文章,主要讲,像我这样的小白,如何 自学才能入门爬虫。

        主要记录了,自己学习的心路历程(100多个小时学习),希望对大家有帮助:smile:

        视频,交流,练习都不可缺少。
      • fa4715aece23:可以参考
      • 书山学海:利用爬虫不会被限制吗
        寻找不同的蜜蜂:@小潘大大

        只要爬得没那么狠。

        爬太狠会封IP,:joy::joy::joy:
      • 书山学海:꧁收录恭喜꧂恭喜作者!本文已被〖科技圈那些事〗和〖简书文章精选集〗专题收录!!!!!希望作者创作出更优秀的作品,也期待各位围观的朋友关注我们的专题和主编「小潘大大」招募管理哟!
        寻找不同的蜜蜂:@小潘大大

        谢谢,您的鼓励和支持,继续爬起来:smirk::smirk::smirk:
      • 择势量投:互联网的主力招聘是拉钩,猎聘,boss直聘等
        寻找不同的蜜蜂:@给策

        是的 下次看看这些高端的:grin:
        寻找不同的蜜蜂:@给策

        是的,高薪职位都不在上面了,看来要换个爬爬了:smile:
        择势量投:51job有点赶不上节奏了
      • 工厂里低层小白:数据分析还可以再详细些吗?比如需求的工作的年龄,学历要求以及技能要求!但真心感觉文主是花了心思去研究的!给你一个大大的赞!
        寻找不同的蜜蜂:@工厂里低层小白

        加油,共勉~
        工厂里低层小白:@工厂里低层小白 加油↖(^ω^)↗
        寻找不同的蜜蜂:@工厂里低层小白

        谢谢,你的宝贵意见。

        需要的年龄和学历还是可以爬,关于主要技能,需要切词,后面需要学习一下。

        前面尝试过,出了一些问题。继续爬起来,:smirk::smirk::smirk:
      • 柠檬森Lemon:文采斐然的作者大家都已经司空见惯,唯独你这种用数据说话的人是,真心牛逼,为你点赞
        寻找不同的蜜蜂:@柠檬森Lemon

        谢谢支持哦,这或许就是大数据的魅力所在。

        嘿嘿,典型理工科思维方式-数据说明一切:grin::grin::grin:

        还有什么建议哦,我继续挖一挖:smirk::smirk::smirk:
      • 慕新阳:蜂哥的文章就是不一样,总是那么深邃。有理有理,可读性强
        MiraclesHed:@慕新阳
        寻找不同的蜜蜂:@慕新阳

        :pray:,感谢您一如既往的支持!

        数据分析,还有很多需要学习:blush:

      本文标题:爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该

      本文链接:https://www.haomeiwen.com/subject/vcoksftx.html