美文网首页Python小哥哥
scrapy自定义重试方法

scrapy自定义重试方法

作者: 我爱学python | 来源:发表于2019-03-20 16:13 被阅读0次

    Scrapy是自带有重试的,但一般是下载出错才会重试,当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如,我解析json出错了,html中不包含我想要的数据,我要重试这个请求(request)。

    我们先看看官方是如何完成重试的

    scrapy/downloadermiddlewares/retry.py

    可以看到非常清晰,在meta中传递一个参数retry_times,来记录当前的request采集了多少次,如果重试次数小于设置的最大重试次数,那么重试。

    根据这段代码我们自定义的重试可以这么写

    捕获异常,如果返回不是json,那就重试,注意需要设置不过滤。

    这种方法简单粗暴,存在BUG,就是会陷入死循环。我也可以记录重试的次数,用meta传递。

    这样就完成了自定义重试,你完全可以在中间件完成,但是我更喜欢这种方法,可以清楚地知道爬虫具体哪里会存在问题。

    其实以上这种方法也不好,因为你可能会在很多地方都需要重试,每个函数都需要,那每次都写一遍,太不美观。更好的方法是将此方法封装为scrapy.http.Response的一个函数,需要用的时候直接调。代码就不贴了,有兴趣的可以研究下,用到python的继承。

    相关文章

      网友评论

        本文标题:scrapy自定义重试方法

        本文链接:https://www.haomeiwen.com/subject/bthtvqtx.html