美文网首页
14-2 分布式爬取配置

14-2 分布式爬取配置

作者: 学飞的小鸡 | 来源:发表于2018-11-01 20:41 被阅读0次

需先安装scrapy_redis

pip install scrapy_redis

一、settings.py

ITEM_PIPELINES = {
   'CrawlSpiderDemo.pipelines.CrawlspiderdemoPipeline': 300,
    # 分布式的爬虫的数据可以不通过本地的管道(数据不需要往本地存),数据需要存在redis数据库中,在这里需要加入一个redis数据库的管道组件
    "scrapy_redis.pipelines.RedisPipeline":400
}

# 指定Redis数据库相关配置
# Redis的主机地址
REDIS_HOST = "10.36.133.159"
# 端口号
REDIS_PORT = 6379
# 密码
# REDIS_PARAMS = {"password":'xxxx'}


# 1、调度器需要切换成Scrapy_Redis的调度器(这个调度器是Scrapy_Redis组件对scrapy原生调度器的重写,加入一些分布式调度的算法)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 2、加入scrapy_redis的去重组件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 3、爬取过程中是否允许暂停
SCHEDULER_PERSIST = True

2、爬虫文件(例:dushu.py)

# 引入分布式爬虫类
from scrapy_redis.spiders import RedisCrawlSpider
    # start_urls = ['https://www.dushu.com/book/1002.html'] # 分布式的爬虫所有的url都是从redis数据库的相关键下面提取

    # redis_key这个属性指定了分布式爬虫在获取url的时候从哪些键中获取的
    redis_key = "dushu:start_urls"

3. 命令行终端连接远程数据库

redis-cli -h 192.168.238.134 # 远程ip
  • 添加爬取路由
192.168.238.134:6379> lpush dushu:start_urls https://www.dushu.com/book/1005_2.html

相关文章

  • 14-2 分布式爬取配置

    需先安装scrapy_redis 一、settings.py 2、爬虫文件(例:dushu.py) 3. 命令行终...

  • 分布式爬虫

    一、什么是分布式爬虫 之前的爬虫只能在主机爬取,爬取的效率有限。,分布式爬虫则是将多台主机组合起来,共同完成一个爬...

  • 初学scrapy的坑

    爬取腾讯招聘,scrapy项目 items配置 spider配置 settings配置 pipelines配置 蛋...

  • 行业垂直搜索引擎的构建

    1 项目的功能 爬取新闻(爬取网站可配置,精准爬取需要内容); 抽取新闻内容,存入数据库(精准抽取); 建立索引(...

  • Scrapy-Splash与Scrapy-Redis 结合

    Scrapy 本事并不能分布式爬取,但是在某些时候,需要爬取大量数据时,就必须要用分布式去处理,这里就必须借用第三...

  • 分布式爬取

    分布式爬取需要安装pip3 install scrapy_redis 首先修改setings.py文件: 1.设置...

  • 分布式异步爬虫框架:hannibal

    闲的无聊爬了下维基百科有关古罗马的数据,爬取模式是分布式+增量爬取。数据爬完了项目却没有停手,因为个人兴趣开始研究...

  • Scrapy-Redis分布式爬取自如网(一)

    继上次Scrapy爬取猫眼电影之后,这几天学习了Scrapy-Redis分布式来提高爬取效率,也算是停留在舒适圈一...

  • scrapy实战--爬取知乎用户信息(上)

    背景 使用Scrapy分布式爬取知乎所有用户个人信息!项目地址 爬取知乎所有用户 大规模抓取静态网页Scrapy绝...

  • app爬取环境配置

    1.1. appnium 安装配置 2.1. appnium 连接第三方安卓模拟器 2.2.运行Appium+Py...

网友评论

      本文标题:14-2 分布式爬取配置

      本文链接:https://www.haomeiwen.com/subject/kgkfxqtx.html