美文网首页
scrapy 出现 [twisted.internet.erro

scrapy 出现 [twisted.internet.erro

作者: GoPython | 来源:发表于2020-10-17 14:35 被阅读0次

    在使用 scapy 进行大批量爬取的时候,少数请求链接会出现请求超时,当出现请求超时时,爬虫会自动重试三次。

    扩展,可以 通过 设置 RETRY_ENABLED = False 来关闭重试机制

    若超过 180s 且三次后且还是没有得到数据,就会出现 twisted.internet.error.TimeoutError 错误。

    image

    提供几种解决办法:

    1、降低同时请求的数量

    CONCURRENT_REQUESTS = 5
    

    2、 增加超时时间

    DOWNLOAD_TIMEOUT = 2000
    

    3、 增加重试次数

    RETRY_TIMES = 5
    

    4、下载中间件中,捕获这个报错,并返回request,让它重新请求这个对象:

    from twisted.internet.error import TimeoutError
    def process_exception(self, request, exception, spider):
    
        if isinstance(exception, TimeoutError):
                    return request
    

    希望对你有帮助~~

    wx 搜索:Python编程与实战~获取更多学习资料

    相关文章

      网友评论

          本文标题:scrapy 出现 [twisted.internet.erro

          本文链接:https://www.haomeiwen.com/subject/dgntuktx.html