美文网首页
Scrapy-7.Scrapy-redis

Scrapy-7.Scrapy-redis

作者: 王南北丶 | 来源:发表于2018-10-29 15:05 被阅读0次

    本文地址:https://www.jianshu.com/p/3de01adfff23

    简介

    scrapy-redis是一个基于Redis的Scrapy组件。其主要有以下特性:

    • 分布式抓取数据

      你可以让多个爬虫实例使用同一个Redis队列,非常适合广泛的多域抓取。

    • 分布式处理数据

      抓取到的Items会被推送到redis队列中,这意味着你可以通过共享的items队列,按照需求自行决定后期处理数据的数量。

    • 即插即用

      提供的Scheduler + Duplication, Item Pipeline, Base Spiders组件都是即插即用,非常方便。

    其构建分布式的方案采用的是master-slave的方式,大概的原理是所有在slave上生成的url,都会被远程发送到master,然后在master上使用Redis数据库来存储需要抓取的url队列。slave要获取下一个抓取的url,也是远程从master获得。

    通过这种方式,就实现了所有Spider抓取的地址统一由master调度,并保存到Redis中的set,这样实现了断点续爬功能。

    并且scrapy-redis会将所有抓取过的地址生成指纹并保存下来,由此可以避免url的重复抓取。

    安装

    scrapy-redis是基于Redis的,所以在使用之前需要先安装Redis数据库。

    如果配置分布式,那么需要把redis的远程连接打开,以及配置好访问密码。

    scrapy-redis模块的安装比较简单,用pip安装即可。

    pip install scrapy-redis
    

    Scrapy-redis用法

    在安装scrapy-redis完毕之后,我们只需要在Scrapy项目中添加一些配置选项就可以启用scrapy-redis组件了。

    # Enables scheduling storing requests queue in redis.
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    # Ensure all spiders share same duplicates filter through redis.
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    # Default requests serializer is pickle, but it can be changed to any module
    # with loads and dumps functions. Note that pickle is not compatible between
    # python versions.
    # Caveat: In python 3.x, the serializer must return strings keys and support
    # bytes as values. Because of this reason the json or msgpack module will not
    # work by default. In python 2.x there is no such issue and you can use
    # 'json' or 'msgpack' as serializers.
    #SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"
    
    # Don't cleanup redis queues, allows to pause/resume crawls.
    #SCHEDULER_PERSIST = True
    
    # Schedule requests using a priority queue. (default)
    #SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
    
    # Alternative queues.
    #SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
    #SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
    
    # Max idle time to prevent the spider from being closed when distributed crawling.
    # This only works if queue class is SpiderQueue or SpiderStack,
    # and may also block the same time when your spider start at the first time (because the queue is empty).
    #SCHEDULER_IDLE_BEFORE_CLOSE = 10
    
    # Store scraped item in redis for post-processing.
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    
    # The item pipeline serializes and stores the items in this redis key.
    #REDIS_ITEMS_KEY = '%(spider)s:items'
    
    # The items serializer is by default ScrapyJSONEncoder. You can use any
    # importable path to a callable object.
    #REDIS_ITEMS_SERIALIZER = 'json.dumps'
    
    # Specify the host and port to use when connecting to Redis (optional).
    #REDIS_HOST = 'localhost'
    #REDIS_PORT = 6379
    
    # Specify the full Redis URL for connecting (optional).
    # If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.
    #REDIS_URL = 'redis://user:pass@hostname:9001'
    
    # Custom redis client parameters (i.e.: socket timeout, etc.)
    #REDIS_PARAMS  = {}
    # Use custom redis client class.
    #REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'
    
    # If True, it uses redis' ``SPOP`` operation. You have to use the ``SADD``
    # command to add URLs to the redis queue. This could be useful if you
    # want to avoid duplicates in your start urls list and the order of
    # processing does not matter.
    #REDIS_START_URLS_AS_SET = False
    
    # Default start urls key for RedisSpider and RedisCrawlSpider.
    #REDIS_START_URLS_KEY = '%(name)s:start_urls'
    
    # Use other encoding than utf-8 for redis.
    #REDIS_ENCODING = 'latin1'
    

    以上列出来的配置语句,选择需要配置的部分,复制到Scrapy项目的settings.py文件中即可。

    核心组件

    如果要启用scrapy-redis的话,那么有两个设置项必须配置:

    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    

    这是scrapy-redis的两个核心组件,实现了大部分的逻辑。

    配置Redis连接

    配置Redis的方式有两种,一种是通过参数配置:

    REDIS_HOST = 'localhost'
    REDIS_PORT = 6379
    REDIS_PASSWORD = 'foobared'
    

    另一种是通过url地址来进行配置:

    REDIS_URL = 'redis://user:password@hostname:9001'
    

    url地址支持以下三种格式:

    redis://[:password]@host:port/db
    rediss://[:password]@host:port/db
    unix://[:password]@/path/to/socket.sock?db=db

    配置调度队列

    还可以通过设置字段来配置队列的调度方式。调度方式总共有以下三种:

    # 默认的调度方式,优先队列,使用redis中的有序集合
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
    # 先入先出队列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
    # 后入先出队列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
    

    配置的时候可以选择其中之一。

    配置断点续爬

    由于scrapy-redis将去重的指纹和爬取队列存储在Redis数据库中,所以可以实现断点续爬的功能。

    首先我们需要开启一个持久化的配置,将此设置配置为True后,那么Scrapy在退出时将不会清空Redis的队列。

    SCHEDULER_PERSIST = True
    

    保留下去重的指纹和爬取队列后,那么下一次开启抓取就会重新继续上次的爬取队列了。

    配置Pipeline

    scrapy-redis中有一个功能是可以将各个分布式的slave抓取到的item传输给master,这样的话,所有抓取的数据都会保存到一个统一的master中。

    但是这项功能会较大的影响抓取的速度,所以在大规模抓取的时候一般都不会开启此选项。

    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    

    系列文章:

    相关文章

      网友评论

          本文标题:Scrapy-7.Scrapy-redis

          本文链接:https://www.haomeiwen.com/subject/lzmbtqtx.html