美文网首页
scrapy 抓取BOSS职业招聘数据

scrapy 抓取BOSS职业招聘数据

作者: 薛定谔_810a | 来源:发表于2019-06-04 09:34 被阅读0次

最近在研究人工智能这一块的,需要判定一下目前主流ai从业人员的学历,所以打算用爬虫爬取一些数据作为参考。目前主流的招聘平台是boss直聘,所以就选取boss直聘作为爬取对象。java的爬虫因为没那么便利,所以选了python的scrapy。
scrapy是个爬虫框架,初始化的时候爬虫的基本结构就有了。
成品后的基本结构如下:

image.png
   其中boss.py是处理程序的主程序,其中画红的部分,应该实时替换成boss的地址
image.png

items.py里存放的是解析后页面的元素信息:


image.png

pipelines.py是清洗数据的地方,主要是清洗到mysql数据库中,和在项目下形成json文件。


image.png
记得更换其中的mysql的地址。
settings.py是设置http请求时的一些头信息,主要是设置画红的两处信息。如果不带头信息,不超过三页就会被boss制裁的。
image.png

最后的是start.py的启动脚本,运行时,输入需要爬取数据的关键字,就会开始执行程序。


image.png

对应项目的git地址为
https://gitee.com/jiatangVr/py3reptileboss.git

相关文章

网友评论

      本文标题:scrapy 抓取BOSS职业招聘数据

      本文链接:https://www.haomeiwen.com/subject/lklnzqtx.html