为什么要用分布式爬虫
学习爬虫已经有一段时间了,之前的爬虫都是一个python文件就实现的,没考虑性能,效率之类的。所以作为一个合格的spider,需要学习一下分布式爬虫。
什么分布式爬虫?简单地说就是用多台服务器去获取数据,让这些服务器去协同,分配各自的任务。
分布式爬虫设计
最常用的一种就是主从分布式爬虫,本文将使用Redis服务器来作为任务队列。
如图:
![](https://img.haomeiwen.com/i13406307/b7356e49eb2fd80e.png)
准备工作
安装python3和Redis
安装requests与Redis相关的库
pip install requests
pip install pyquery
pip install redis
代码
主函数(master.py)
![](https://img.haomeiwen.com/i13406307/8298b7afcafdbef6.png)
从函数(salver.py)
![](https://img.haomeiwen.com/i13406307/606ff33000c94635.png)
网友评论