美文网首页Python蜂采Python
python主从分布式爬虫

python主从分布式爬虫

作者: 9ba4bd5525b9 | 来源:发表于2019-06-14 15:34 被阅读31次

为什么要用分布式爬虫

学习爬虫已经有一段时间了,之前的爬虫都是一个python文件就实现的,没考虑性能,效率之类的。所以作为一个合格的spider,需要学习一下分布式爬虫。

什么分布式爬虫?简单地说就是用多台服务器去获取数据,让这些服务器去协同,分配各自的任务。

分布式爬虫设计

最常用的一种就是主从分布式爬虫,本文将使用Redis服务器来作为任务队列。

如图:

准备工作

安装python3和Redis

安装requests与Redis相关的库

pip install requests

pip install pyquery

pip install redis

代码

主函数(master.py)

从函数(salver.py)

相关文章

网友评论

    本文标题:python主从分布式爬虫

    本文链接:https://www.haomeiwen.com/subject/fmlpfctx.html