美文网首页
爬虫无限爬取出现的原因

爬虫无限爬取出现的原因

作者: 扑腾的蛾子 | 来源:发表于2018-03-20 20:57 被阅读9次

今天写了一个爬虫要爬取的页面是这样的

爬取所有年份的所有的奖项,因为数字不能获取到,于是

将所有的信息进行了循环拼接,

在下一级的方法中进行分析找到要用的detail_url

于是,程序开始了无限制的爬取,我等的都快崩溃了,原来是上面的self.start_urls在用完后没有进行及时的清空,于是当数量越多,页数越多的情况下,重复的次数就会越多,bug虽小,但是还是很折磨人的。

!!!全局数组在用完后一定要清空啊。

相关文章

网友评论

      本文标题:爬虫无限爬取出现的原因

      本文链接:https://www.haomeiwen.com/subject/sxkiqftx.html