Windows环境下Scrapy的断点续爬、增量爬取、断网急救
(2017-10-27 22:50:32)
标签:
分类: Python
为了爬取数据,昨天入了scrapy的坑。不过相对于webdriver和requests来说,scrapy框架封装较好,且代码量少,速度也较快,几乎可以傻瓜定制。
很顺利地建好工程,解析页面,好,爬虫跑起来了。由于连接的是WiFi,信号不太稳定,突然断网爬虫中止了。可是,没有写续爬。百度发现,什么结合MySQL去重,结合Redits缓存链接等等好麻烦。知乎得到,scrapy的增量爬取是软肋,建议转pyspider。研究Pyspider一番,发现这货还在开发之中,对Windows系统根本还不兼容。没办法,继续各种找solutions。
功夫不负有心人,终于找到scrapy有一个插件“scrapy-deltafetch",具体见链接网站。
http://blog.csdn.net/zsl10/article/details/52885597
原理是:scrapy-deltafetch可以通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,实现增量去重,提高爬虫爬取性能。
网友评论