scrapy学习资料汇总

作者: pcliuyang | 来源:发表于2016-05-04 14:49 被阅读294次

接触 Scrapy，是因为想爬取一些知乎的数据，最开始的时候搜索了一些相关的资料和别人的实现方式。

Github 上已经有人或多或少的实现了对知乎数据的爬取，我搜索到的有以下几个仓库：

https://github.com/KeithYue/Zhihu_Spider实现先通过用户名和密码登陆再爬取数据，代码见zhihu_spider.py。

https://github.com/immzz/zhihu-scrapy使用 selenium 下载和执行 javascript 代码。

https://github.com/Zcc/zhihu主要是爬指定话题的topanswers，还有用户个人资料，添加了登录代码。

https://github.com/pelick/VerticleSearchEngine基于爬取的学术资源，提供搜索、推荐、可视化、分享四块。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技术。

https://github.com/geekan/scrapy-examplesscrapy的一些例子，包括获取豆瓣数据、linkedin、腾讯招聘数据等例子。

https://github.com/gnemoug/distribute_crawler使用scrapy、redis、mongodb、graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现

https://github.com/weizetao/spider-roach一个分布式定向抓取集群的简单实现。

其他资料：

http://www.52ml.net/tags/Scrapy收集了很多关于 Scrapy 的文章，推荐阅读

scrapy 和 javascript 交互例子：

还有一些待整理的知识点：

如何先登陆再爬数据

如何使用规则做过滤

如何递归爬取数据

scrapy的参数设置和优化

如何实现分布式爬取

网友评论

本文标题：scrapy学习资料汇总

本文链接：https://www.haomeiwen.com/subject/zrirrttx.html

scrapy学习资料汇总