爬虫作业1

作者: 万能滴小笼包 | 来源:发表于2017-07-05 11:27 被阅读87次

    目标确定

    马上就要进入招聘季啦,各大公司和众多求职者都已“蓄势待发”。

    我个人也得充分准备下争取拿到个好工作啦

    所以对于求职这方面信息就是爬虫的重要目标。

    爬取的数据

    我个人偏向于对公司信息的了解,这个公司的综合评分啊、环境啊、氛围啊、面试经验啊都需要了解一番,做到心里有谱才好。

    对应的网站

    1.看准网 (重点)

    2.企业口碑网

    要爬取的url

    1. http://www.kanzhun.com/

    2. http://www.qykb.cn/

    筛选的规则

    初步是这样规划的

    1.首先,得到公司的基本信息,包括公司名称、地点、企业类别、公司规模等

    2.其次,筛选出公司的综合评分、平均月薪等待遇

    3.再深入探究一点,就是筛选出该公司目前有“数据”、“分析”相关的职位,将职位信息爬取出来

    4.在面试一栏中,筛选出有“数据”、“分析”主题的面试信息,包括评论者给公司和面试过程打的标签、评论的文本信息等,后期会主要处理文本信息,得到关键字样。

    大体要爬取的内容是这些,而筛选规则在每一条中或多或少涉及到,后续涉及到具体的操作时会有更具体的筛选规则。

    相关文章

      网友评论

        本文标题:爬虫作业1

        本文链接:https://www.haomeiwen.com/subject/mvifhxtx.html