scrapy在pipeline中重新生成request

作者: zbharper | 来源:发表于2019-11-19 15:13 被阅读0次

scrapy在pipeline中重新生成request
Scrapy 框架中的Request类（二十四）
Scrapy----Item Pipeline的一个小问题
scrapy抓取百度图片-写给自己看爬虫系列1
Scrapy爬虫框架(八) ------ 模拟登录
laravel 源码解析之 Pipeline
scrapy-redis 使用及调试
(九)Scrapy框架(三) ？python+scrapy爬虫5
python3+Scrapy爬虫实战（二）—— 使用pipeli
scrapy爬取图片时，出现 ValueError:Missin

基于scrapy框架进行爬虫开发，一般的流程如下：

设计spider类，在spider类中yield request，并注册回调函数处理response
设计item，在spider类的回调函数中通过分析response生成item
设计pipeline类，处理生成的item，如保存至文件/保存至数据库/聚合分析等

某些应用场景下，我们可能需要在pipeline中对 item进行进一步处理，比如从中提取新的url进行爬取或者调用restful 微服务等。这就需要在pipeline中重新yield 新的request。
而从scrapy的数据流中可以看到，scrapy的执行引擎只向pipeline发送item数据，并不接收pipeline返回的数据。类似在spider类中直接yield request的方式是行不通的，yield语句会中断所有pipeline的执行

image.png

解决方法

显式调用crawler.engine.crawl()，将新的request发送至执行引擎。

class MyPipeline(object):

    def __init__(self, crawler):
        self.crawler = crawler

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_item(self, item, spider):
        ...
        self.crawler.engine.crawl(
                    Request(
                        url='someurl',
                        callback=self.custom_callback,
                    ),
                    spider,
                )

    # YES, you can define a method callback inside the same pipeline
    def custom_callback(self, response):
        ...
        yield item

网友评论

本文标题：scrapy在pipeline中重新生成request

本文链接：https://www.haomeiwen.com/subject/howwictx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy在pipeline中重新生成request

解决方法

相关文章

scrapy在pipeline中重新生成request

Scrapy 框架中的Request类（二十四）

Scrapy----Item Pipeline的一个小问题

scrapy抓取百度图片-写给自己看爬虫系列1

Scrapy爬虫框架(八) ------ 模拟登录

laravel 源码解析之 Pipeline

scrapy-redis 使用及调试

(九)Scrapy框架(三) ？python+scrapy爬虫5

python3+Scrapy爬虫实战（二）—— 使用pipeli

scrapy爬取图片时，出现 ValueError:Missin

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读