最近在研究人工智能这一块的,需要判定一下目前主流ai从业人员的学历,所以打算用爬虫爬取一些数据作为参考。目前主流的招聘平台是boss直聘,所以就选取boss直聘作为爬取对象。java的爬虫因为没那么便利,所以选了python的scrapy。
scrapy是个爬虫框架,初始化的时候爬虫的基本结构就有了。
成品后的基本结构如下:
其中boss.py是处理程序的主程序,其中画红的部分,应该实时替换成boss的地址
image.png
items.py里存放的是解析后页面的元素信息:
image.png
pipelines.py是清洗数据的地方,主要是清洗到mysql数据库中,和在项目下形成json文件。
image.png
记得更换其中的mysql的地址。
settings.py是设置http请求时的一些头信息,主要是设置画红的两处信息。如果不带头信息,不超过三页就会被boss制裁的。
image.png
最后的是start.py的启动脚本,运行时,输入需要爬取数据的关键字,就会开始执行程序。
image.png
对应项目的git地址为
https://gitee.com/jiatangVr/py3reptileboss.git
网友评论