在上一篇文章【Python3】南京链家二手房信息采集中已对南京链家房价信息进行提取,但因为数据量太大,每次运行到一半就因为中途断网就崩溃了,试了几次不知道为什么,后来放弃了,后来知道scrapy提供了一个不错的框架,因此此次试试scrapy,工欲善其事,必先利其器,第一篇先介绍中途用到的工具:scrapy+MongoDB+robo 3t(原名Robomongo),对于robo 3t有一款替代的可视化工具MongoVUE,但试了几次均以失败告终,最终选择robo 3t。
工具比较简单,百度那里有很多教程,此处就不详述了。只列举我参考的文章,表示对作者的敬意:
详细图解mongodb 3.4.1 win7x64下载、安装、配置与使用2017/01/16
Windows系统 MongoDB 各个64位版本下载地址
[MongoDB]可视化工具Robomongo,这篇文章有robomongo的下载地址,当时为了方便用了portable version。
需要安装的库:scrapy和pymongo,安装方法用pip就可以了,此处不再赘述。
另,如果有任何问题,欢迎邮件交流:myprojtest@163.com。
爬虫系列文章:
南京链家爬虫系列文章(一)——工具篇
南京链家爬虫系列文章(二)——scrapy篇
南京链家爬虫系列文章(三)——MongoDB数据读取
南京链家爬虫系列文章(四)——图表篇
网友评论