scrapy redis url去重
看到网上有很多有关标题的文章,也想实现这个功能,(虽然没看懂),本人小白一名,总是想用最简单的思路解决问题,所以总结了一下:
redis的基础使用
sadd命令:sadd可以实现键值对儿一对多。具体原理如何去看官网或者百度。
去重思路
在添加新的链接的时候返回值为1,再添加已有的链接时候,返回值为0。那么我们可以利用返回值来判断是不是该继续爬取这个链接。这个判断只需要添加到你的spider中就可以了。返回值为1的时候,新的url已经添加到redis中,并且可以正常爬取新连接内容;返回值为0的时候,url已经存在redis中,跳过此url的爬取过程。
在此只是一个思路,不知道大家能懂我的意思吗,在这顺便提醒一下,url去重,大家还要多了解一下redis的持久化
第一次发表文章,我是刚入行小白,大家不要喷!谢谢!
网友评论