scrapy分布式调度源码及其实现过程

作者: Python之战 | 来源:发表于2019-03-14 08:59 被阅读0次

分布式scrapy_redis源码总结，及其架构
scrapy分布式调度源码及其实现过程
scrapy基于redis分布式爬虫实现
RedisSpider的调度队列实现过程及其源码
scrapy_redis分布式组件Connection源码解读及
scrapy分布式去重组件源码及其实现过程
分布式爬虫架构设计与实现
Quartz 分布式解决方案
（大纲40）Python07爬虫第7节、scrapy-Redi
scrapy分布式Spider源码分析及实现过程

scrapy_redis.scheduler取代了scrapy自带的scheduler调度，scheduler实现队列、url去重、Request管理的功能，负责调度各个spider的request请求，scheduler初始化时，通过settings文件读取queue和dupefilters的类型（一般就用上边默认的），配置queue和dupefilters使用的key（一般就是spider name加上queue或者dupefilters，这样对于同一种spider的不同实例，就会使用相同的数据块了）

scrapy_redis.scheduler源码如下：

import importlib
import six

from scrapy.utils.misc import load_object

from . import connection, defaults

# TODO: add SCRAPY_JOB support.
class Scheduler(object):
    """Redis-based scheduler

    Settings
    --------
    SCHEDULER_PERSIST : bool (default: False)
        Whether to persist or clear redis queue.
    SCHEDULER_FLUSH_ON_START : bool (default: False)
        Whether to flush redis queue on start.
    SCHEDULER_IDLE_BEFORE_CLOSE : int (default: 0)
        How many seconds to wait before closing if no message is received.
    SCHEDULER_QUEUE_KEY : str
        Scheduler redis key.
    SCHEDULER_QUEUE_CLASS : str
        Scheduler queue class.
    SCHEDULER_DUPEFILTER_KEY : str
        Scheduler dupefilter redis key.
    SCHEDULER_DUPEFILTER_CLASS : str
        Scheduler dupefilter class.
    SCHEDULER_SERIALIZER : str
        Scheduler serializer.

    """

    def __init__(self, server,
                 persist=False,
                 flush_on_start=False,
                 queue_key=defaults.SCHEDULER_QUEUE_KEY,
                 queue_cls=defaults.SCHEDULER_QUEUE_CLASS,
                 dupefilter_key=defaults.SCHEDULER_DUPEFILTER_KEY,
                 dupefilter_cls=defaults.SCHEDULER_DUPEFILTER_CLASS,
                 idle_before_close=0,
                 serializer=None):
        """Initialize scheduler.

        Parameters
        ----------
        server : Redis
            The redis server instance.
        persist : bool
            Whether to flush requests when closing. Default is False.
        flush_on_start : bool
            Whether to flush requests on start. Default is False.
        queue_key : str
            Requests queue key.
        queue_cls : str
            Importable path to the queue class.
        dupefilter_key : str
            Duplicates filter key.
        dupefilter_cls : str
            Importable path to the dupefilter class.
        idle_before_close : int
            Timeout before giving up.

        """
        if idle_before_close < 0:
            raise TypeError("idle_before_close cannot be negative")

        self.server = server
        self.persist = persist
        self.flush_on_start = flush_on_start
        self.queue_key = queue_key
        self.queue_cls = queue_cls
        self.dupefilter_cls = dupefilter_cls
        self.dupefilter_key = dupefilter_key
        self.idle_before_close = idle_before_close
        self.serializer = serializer
        self.stats = None

    def __len__(self):
        return len(self.queue)

    @classmethod
    def from_settings(cls, settings):
        kwargs = {
            'persist': settings.getbool('SCHEDULER_PERSIST'),
            'flush_on_start': settings.getbool('SCHEDULER_FLUSH_ON_START'),
            'idle_before_close': settings.getint('SCHEDULER_IDLE_BEFORE_CLOSE'),
        }

        # If these values are missing, it means we want to use the defaults.
        optional = {
            # TODO: Use custom prefixes for this settings to note that are
            # specific to scrapy-redis.
            'queue_key': 'SCHEDULER_QUEUE_KEY',
            'queue_cls': 'SCHEDULER_QUEUE_CLASS',
            'dupefilter_key': 'SCHEDULER_DUPEFILTER_KEY',
            # We use the default setting name to keep compatibility.
            'dupefilter_cls': 'DUPEFILTER_CLASS',
            'serializer': 'SCHEDULER_SERIALIZER',
        }
        for name, setting_name in optional.items():
            val = settings.get(setting_name)
            if val:
                kwargs[name] = val

        # Support serializer as a path to a module.
        if isinstance(kwargs.get('serializer'), six.string_types):
            kwargs['serializer'] = importlib.import_module(kwargs['serializer'])

        server = connection.from_settings(settings)
        # Ensure the connection is working.
        server.ping()

        return cls(server=server, **kwargs)

    @classmethod
    def from_crawler(cls, crawler):
        instance = cls.from_settings(crawler.settings)
        # FIXME: for now, stats are only supported from this constructor
        instance.stats = crawler.stats
        return instance

    def open(self, spider):
        self.spider = spider

        try:
            self.queue = load_object(self.queue_cls)(
                server=self.server,
                spider=spider,
                key=self.queue_key % {'spider': spider.name},
                serializer=self.serializer,
            )
        except TypeError as e:
            raise ValueError("Failed to instantiate queue class '%s': %s",
                             self.queue_cls, e)

        try:
            self.df = load_object(self.dupefilter_cls)(
                server=self.server,
                key=self.dupefilter_key % {'spider': spider.name},
                debug=spider.settings.getbool('DUPEFILTER_DEBUG'),
            )
        except TypeError as e:
            raise ValueError("Failed to instantiate dupefilter class '%s': %s",
                             self.dupefilter_cls, e)

        if self.flush_on_start:
            self.flush()
        # notice if there are requests already in the queue to resume the crawl
        if len(self.queue):
            spider.log("Resuming crawl (%d requests scheduled)" % len(self.queue))

    def close(self, reason):
        if not self.persist:
            self.flush()

    def flush(self):
        self.df.clear()
        self.queue.clear()

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        if self.stats:
            self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
        self.queue.push(request)
        return True

    def next_request(self):
        block_pop_timeout = self.idle_before_close
        request = self.queue.pop(block_pop_timeout)
        if request and self.stats:
            self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
        return request

    def has_pending_requests(self):
        return len(self) > 0

在爬虫开始运行时，读取配置文件配置，并创建Request队列对象和Request的url去重对象。

def open(self, spider):
        self.spider = spider

        try:
            self.queue = load_object(self.queue_cls)(
                server=self.server,
                spider=spider,
                key=self.queue_key % {'spider': spider.name},
                serializer=self.serializer,
            )
        except TypeError as e:
            raise ValueError("Failed to instantiate queue class '%s': %s",
                             self.queue_cls, e)

        try:
            self.df = load_object(self.dupefilter_cls)(
                server=self.server,
                key=self.dupefilter_key % {'spider': spider.name},
                debug=spider.settings.getbool('DUPEFILTER_DEBUG'),
            )
        except TypeError as e:
            raise ValueError("Failed to instantiate dupefilter class '%s': %s",
                             self.dupefilter_cls, e)

        if self.flush_on_start:
            self.flush()
        # notice if there are requests already in the queue to resume the crawl
        if len(self.queue):
            spider.log("Resuming crawl (%d requests scheduled)" % len(self.queue))

调度器实现了两个重要的方法，一个是入队列一个是出队列；当一个Request提交给调度器后，会根据是启用重复下载来去重，然后放入队列中：

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        if self.stats:
            self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
        self.queue.push(request)
        return True

另一个重要方法是出队列next_request，当调度完成时，next_request被调用，scheduler就通过queue容器的接口，取出一个request，把他发送给相应的spider，让spider进行爬取工作。

    def next_request(self):
        block_pop_timeout = self.idle_before_close
        request = self.queue.pop(block_pop_timeout)
        if request and self.stats:
            self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
        return request

当爬虫关闭时，会根据persist参数来决定是否清空队列，该参数说明：persist : bool Whether to flush requests when closing. Default is False.默认是False，但往往在配置文件中配置SCHEDULER_PERSIST = True（不清空）

    def close(self, reason):
        if not self.persist:
            self.flush()

    def flush(self):
        self.df.clear()
        self.queue.clear()

image

分布式scrapy_redis源码总结，及其架构
分布式scrapy的组件源码介绍完了，大致总结一下，相关组件目录如下：《RedisSpider的调度队列实现过程...
scrapy分布式调度源码及其实现过程
scrapy_redis.scheduler取代了scrapy自带的scheduler调度，scheduler实现...
scrapy基于redis分布式爬虫实现
Scrapy基于redis分布式爬虫的主要实现类 1：queue实现，这是scheduler调度得一个重点，所有的...
RedisSpider的调度队列实现过程及其源码
对于非分布式的scrapy爬虫而言，不能共享爬虫队列，不能实现分布式。RedisSpider是依赖Redis存储中...
scrapy_redis分布式组件Connection源码解读及
之前已经将主要的scrapy_redis分布式组件源码及其工作原理介绍完成，今天介绍分布式组件的最后一个Conne...
scrapy分布式去重组件源码及其实现过程
scrapy_redis在继承scrapy去重组件的基础上覆盖了某些方法，原scrapy去重是基于单机情况下的内部...
分布式爬虫架构设计与实现
由于scrapy框架需要更多的学习成本，还有分布式爬虫也需要redis来实现，调度方式也不是很符合业务要求，于是就...
Quartz 分布式解决方案
本文要点 1.Quartz相关重要概念 2.如何实现分布式调度 3.核心源码的实现 1.Quartz相关重要概念 ...
（大纲40）Python07爬虫第7节、scrapy-Redi
7、爬虫7、scrapy-Redis实战 1.7.0从零搭建Redis-Scrapy分布式爬虫1.7.1源码自带项...
scrapy分布式Spider源码分析及实现过程
分布式框架scrapy_redis实现了一套完整的组件，其中也实现了spider，RedisSpider是在继承原...

scrapy分布式调度源码及其实现过程

相关文章

分布式scrapy_redis源码总结，及其架构

scrapy分布式调度源码及其实现过程

scrapy基于redis分布式爬虫实现

RedisSpider的调度队列实现过程及其源码

scrapy_redis分布式组件Connection源码解读及

scrapy分布式去重组件源码及其实现过程

分布式爬虫架构设计与实现

Quartz 分布式解决方案

（大纲40）Python07爬虫第7节、scrapy-Redi

scrapy分布式Spider源码分析及实现过程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读