美文网首页
2018-08-14

2018-08-14

作者: 花先子生 | 来源:发表于2018-08-14 11:14 被阅读0次

    Windows环境下Scrapy的断点续爬、增量爬取、断网急救

     (2017-10-27 22:50:32)

    转载

    标签: 

    scrapy

    增量

    去重

    berkeley

    分类: Python

    为了爬取数据,昨天入了scrapy的坑。不过相对于webdriver和requests来说,scrapy框架封装较好,且代码量少,速度也较快,几乎可以傻瓜定制。

    很顺利地建好工程,解析页面,好,爬虫跑起来了。由于连接的是WiFi,信号不太稳定,突然断网爬虫中止了。可是,没有写续爬。百度发现,什么结合MySQL去重,结合Redits缓存链接等等好麻烦。知乎得到,scrapy的增量爬取是软肋,建议转pyspider。研究Pyspider一番,发现这货还在开发之中,对Windows系统根本还不兼容。没办法,继续各种找solutions。

    功夫不负有心人,终于找到scrapy有一个插件“scrapy-deltafetch",具体见链接网站。

    http://blog.csdn.net/zsl10/article/details/52885597

    原理是:scrapy-deltafetch可以通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,实现增量去重,提高爬虫爬取性能。

    相关文章

      网友评论

          本文标题:2018-08-14

          本文链接:https://www.haomeiwen.com/subject/ikbmbftx.html