最近在研究人工智能这一块的,需要判定一下目前主流ai从业人员的学历,所以打算用爬虫爬取一些数据作为参考。目前主流的招聘平台是boss直聘,所以就选取boss直聘作为爬取对象。java的爬虫因为没那么便利,所以选了python的scrapy。
scrapy是个爬虫框架,初始化的时候爬虫的基本结构就有了。
成品后的基本结构如下:
![](https://img.haomeiwen.com/i14886638/3a1275680d98a128.png)
其中boss.py是处理程序的主程序,其中画红的部分,应该实时替换成boss的地址
![](https://img.haomeiwen.com/i14886638/711de66fab082434.png)
items.py里存放的是解析后页面的元素信息:
![](https://img.haomeiwen.com/i14886638/10549b9ec8890511.png)
pipelines.py是清洗数据的地方,主要是清洗到mysql数据库中,和在项目下形成json文件。
![](https://img.haomeiwen.com/i14886638/05a35f562eac0e23.png)
记得更换其中的mysql的地址。
settings.py是设置http请求时的一些头信息,主要是设置画红的两处信息。如果不带头信息,不超过三页就会被boss制裁的。
![](https://img.haomeiwen.com/i14886638/61172997e8e61d0a.png)
最后的是start.py的启动脚本,运行时,输入需要爬取数据的关键字,就会开始执行程序。
![](https://img.haomeiwen.com/i14886638/ba92f5ac17b51e42.png)
对应项目的git地址为
https://gitee.com/jiatangVr/py3reptileboss.git
网友评论