scrapy学习资料汇总

作者: pcliuyang | 来源:发表于2016-05-04 14:49 被阅读294次

    接触 Scrapy,是因为想爬取一些知乎的数据,最开始的时候搜索了一些相关的资料和别人的实现方式。

    Github 上已经有人或多或少的实现了对知乎数据的爬取,我搜索到的有以下几个仓库:

    https://github.com/KeithYue/Zhihu_Spider实现先通过用户名和密码登陆再爬取数据,代码见zhihu_spider.py

    https://github.com/immzz/zhihu-scrapy使用 selenium 下载和执行 javascript 代码。

    https://github.com/tangerinewhite32/zhihu-stat-py

    https://github.com/Zcc/zhihu主要是爬指定话题的topanswers,还有用户个人资料,添加了登录代码。

    https://github.com/pelick/VerticleSearchEngine基于爬取的学术资源,提供搜索、推荐、可视化、分享四块。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技术。

    https://github.com/geekan/scrapy-examplesscrapy的一些例子,包括获取豆瓣数据、linkedin、腾讯招聘数据等例子。

    https://github.com/owengbs/deeplearning实现分页获取话题。

    https://github.com/gnemoug/distribute_crawler使用scrapy、redis、mongodb、graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现

    https://github.com/weizetao/spider-roach一个分布式定向抓取集群的简单实现。

    其他资料:

    http://www.52ml.net/tags/Scrapy收集了很多关于 Scrapy 的文章,推荐阅读

    用Python Requests抓取知乎用户信息

    使用scrapy框架爬取自己的博文

    Scrapy 深入一点点

    使用python,scrapy写(定制)爬虫的经验,资料,杂。

    Scrapy 轻松定制网络爬虫

    在scrapy中怎么让Spider自动去抓取豆瓣小组页面

    scrapy 和 javascript 交互例子:

    用scrapy框架爬取js交互式表格数据

    scrapy + selenium 解析javascript 实例

    还有一些待整理的知识点:

    如何先登陆再爬数据

    如何使用规则做过滤

    如何递归爬取数据

    scrapy的参数设置和优化

    如何实现分布式爬取


    来源:https://segmentfault.com/a/1190000000583419

    相关文章

      网友评论

      • Lyrus:nice job, thx 4 sharin'

      本文标题:scrapy学习资料汇总

      本文链接:https://www.haomeiwen.com/subject/zrirrttx.html