美文网首页
分布式爬虫案例

分布式爬虫案例

作者: 生信师姐 | 来源:发表于2020-06-01 07:00 被阅读0次

以麦田为例,

1.新建项目、爬虫应用

scrapy startproject houseinfo
cd houseinfo
scrapy genspider maitian maitian.com

2.在redis中代码修改的地方,修改为如下

# bind 127.0.0.1
protected-mode no

3.项目内各个文件编写

爬虫主程序maitian.py

item.py

pipeline.py

修改Settings.py文件(要认真看)

4.开启redis服务端和客户端:

redis-server ./redis.windows.conf
redis-cli

5.进入spider文件夹,运行爬虫文件

scrapy runspider maitian.py

6.在redis客户端,向调度器队列中扔入一个起始url(在redis客户端中操作)

lpush maitian:start_url http://bj.maitian.cn/zfall/

7.查看结果

keys *    # 得到队列名:items(存放数据)

查看内容:

lrange maitian:items 0 -1

官方文档:https://scrapy-redis.readthedocs.io/en/stable/

源码位置:https://github.com/rmax/scrapy-redis

相关文章

网友评论

      本文标题:分布式爬虫案例

      本文链接:https://www.haomeiwen.com/subject/msuuohtx.html