美文网首页
scrapy 抓取BOSS职业招聘数据

scrapy 抓取BOSS职业招聘数据

作者: 薛定谔_810a | 来源:发表于2019-06-04 09:34 被阅读0次

    最近在研究人工智能这一块的,需要判定一下目前主流ai从业人员的学历,所以打算用爬虫爬取一些数据作为参考。目前主流的招聘平台是boss直聘,所以就选取boss直聘作为爬取对象。java的爬虫因为没那么便利,所以选了python的scrapy。
    scrapy是个爬虫框架,初始化的时候爬虫的基本结构就有了。
    成品后的基本结构如下:

    image.png
       其中boss.py是处理程序的主程序,其中画红的部分,应该实时替换成boss的地址
    
    image.png

    items.py里存放的是解析后页面的元素信息:


    image.png

    pipelines.py是清洗数据的地方,主要是清洗到mysql数据库中,和在项目下形成json文件。


    image.png
    记得更换其中的mysql的地址。
    settings.py是设置http请求时的一些头信息,主要是设置画红的两处信息。如果不带头信息,不超过三页就会被boss制裁的。
    image.png

    最后的是start.py的启动脚本,运行时,输入需要爬取数据的关键字,就会开始执行程序。


    image.png

    对应项目的git地址为
    https://gitee.com/jiatangVr/py3reptileboss.git

    相关文章

      网友评论

          本文标题:scrapy 抓取BOSS职业招聘数据

          本文链接:https://www.haomeiwen.com/subject/lklnzqtx.html