美文网首页
scrapy redis url去重

scrapy redis url去重

作者: Erich6 | 来源:发表于2018-10-12 10:26 被阅读0次

scrapy redis url去重


看到网上有很多有关标题的文章,也想实现这个功能,(虽然没看懂),本人小白一名,总是想用最简单的思路解决问题,所以总结了一下:

redis的基础使用

sadd命令:sadd可以实现键值对儿一对多。具体原理如何去看官网或者百度。

去重思路

在添加新的链接的时候返回值为1,再添加已有的链接时候,返回值为0。那么我们可以利用返回值来判断是不是该继续爬取这个链接。这个判断只需要添加到你的spider中就可以了。返回值为1的时候,新的url已经添加到redis中,并且可以正常爬取新连接内容;返回值为0的时候,url已经存在redis中,跳过此url的爬取过程。

在此只是一个思路,不知道大家能懂我的意思吗,在这顺便提醒一下,url去重,大家还要多了解一下redis的持久化

第一次发表文章,我是刚入行小白,大家不要喷!谢谢!

相关文章

网友评论

      本文标题:scrapy redis url去重

      本文链接:https://www.haomeiwen.com/subject/anywaftx.html