美文网首页我爱编程
Scrapy+redis+mongodb分布式爬虫抓取小说《冰与

Scrapy+redis+mongodb分布式爬虫抓取小说《冰与

作者: AlanLau | 来源:发表于2018-04-09 22:22 被阅读88次

    一年前写了python简单实战项目:《冰与火之歌1-5》角色关系图谱构建数据库设计数据可视化共现图谱的构建,中间唯独缺了数据的采集,因为想着只是个小爬虫,应该无关痛痒,后面也觉得这个系列缺了这一环不完美。前几天想着还是补上,结果发现一年前写的爬虫失效了,故索性就再写一个,然后就想着直接用上现在主流的scrapy框架以及redis、mongodb这两个Nosql好了,以小见大。

    代码上传到了GitHub上,感兴趣的朋友可以移步:代码

    旧爬虫代码(已失效,可做参考)、数据库设计的orm框架内model代码,以及现成抓取好的sqlite数据库均更新到了GitHub上的oldspder文件夹中

    新的爬虫需要掌握的知识:

    • scrapy
    • redis
    • mongodb
    • xpath

    项目在ubuntu16上进行,windows的朋友可以参考崔庆才个人博客来安装scrapy、redis、mongo
    然后再推荐一个大牛的博客——新浪微博分布式爬虫分享

    然后在最后提出个问题,就是在运行Scrapy并抓取保存好数据后,scrapy依旧在空跑,百度和google了很多,基本解决方式是通过设定爬虫运行超时时间来关闭,觉得治标不治本,欢迎路过的大神不吝赐教,感恩。

    20180323112340949.jpg

    新项目抛弃了sqlite使用mongodb进行储存数据

    相关文章

      网友评论

        本文标题:Scrapy+redis+mongodb分布式爬虫抓取小说《冰与

        本文链接:https://www.haomeiwen.com/subject/souwhftx.html