美文网首页
scrapy的url去重设置

scrapy的url去重设置

作者: 萌木盖 | 来源:发表于2019-01-30 13:50 被阅读0次

是这样的,我想抓取页面更新的东西,
我在spider里写了一个parse方法,用sleep(300),每隔5分钟再爬一次,
我在这个方法加上一句,yield Request(url=response.url,callback=self.parse),这样来实现循环调用这个方法,可是scrapy默认的去重机制让这个循坏失败。
所以这里函数内加上一个参数

加上第三个参数dont_filter = True
Request(url,callback,dont_filter=True)

即可。

相关文章

网友评论

      本文标题:scrapy的url去重设置

      本文链接:https://www.haomeiwen.com/subject/zwtcsqtx.html