美文网首页
2018-08-14

2018-08-14

作者: 花先子生 | 来源:发表于2018-08-14 11:14 被阅读0次

Windows环境下Scrapy的断点续爬、增量爬取、断网急救

 (2017-10-27 22:50:32)

转载

标签: 

scrapy

增量

去重

berkeley

分类: Python

为了爬取数据,昨天入了scrapy的坑。不过相对于webdriver和requests来说,scrapy框架封装较好,且代码量少,速度也较快,几乎可以傻瓜定制。

很顺利地建好工程,解析页面,好,爬虫跑起来了。由于连接的是WiFi,信号不太稳定,突然断网爬虫中止了。可是,没有写续爬。百度发现,什么结合MySQL去重,结合Redits缓存链接等等好麻烦。知乎得到,scrapy的增量爬取是软肋,建议转pyspider。研究Pyspider一番,发现这货还在开发之中,对Windows系统根本还不兼容。没办法,继续各种找solutions。

功夫不负有心人,终于找到scrapy有一个插件“scrapy-deltafetch",具体见链接网站。

http://blog.csdn.net/zsl10/article/details/52885597

原理是:scrapy-deltafetch可以通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,实现增量去重,提高爬虫爬取性能。

相关文章

网友评论

      本文标题:2018-08-14

      本文链接:https://www.haomeiwen.com/subject/ikbmbftx.html