Scrapy的乱七八糟

作者: ChangYan | 来源:发表于2017-01-09 10:42 被阅读0次

Scrapy的乱七八糟
简单 Scrapy 使用小结
scrapy框架
scrapy笔记
python爬虫13：scrapy
Scrapy笔记
scrapy的概念和流程 (黑马教育)
28.scrapy的入门使用
27. scrapy的概念和流程
PyCharm运行和调试Scrapy

Scrapy是python2.7的一个open source package，目前还不支持py3，安装直接pip install scrapy就可以。

干嘛的？
写爬虫。

使用体会
从backbone开始，到react, angular等一系列前端框架，这次写爬虫用scrapy，深刻体会到一个“束缚性”，the frame calls you, you call the library。当然这不是说框架不好，相反我觉得有两点好处：第一，适合快速上手，毕竟一步一步的都规定好了；第二，效率高。

重点在哪？

Scrapy的几个关键命令，比如说

scrapy startproject tutorial
scrapy genspider dmoz
scrapy crawl dmoz

Item 的概念
Item是用来存储爬取信息的一个简单容器，定义了字段的metadata，同时它支持python的dictionary的大部分api。
Spiders
如果你稍微接触过web，尤其是前端，那么spider是怎样爬取数据应该非常好理解。仔细看一下文档里这部分内容http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html
Selector
Selector是基于lxml的一个选择器。类似于beatufulsoup里的find。其支持选择通过两种方式：xpath和css。关于selector的内容不需要强记，用的时候多查就好。

熟悉了这几个概念之后就可以开始尝试写一些简单的爬虫了。Scrapy还支持一些特性，比如说item pipeline用于处理item里的数据，feed export用来存储爬取的数据，等等。这些都在文档里，自己去慢慢看吧……