Scrapy介绍

作者: 闲欢 | 来源:发表于2019-11-28 11:59 被阅读0次

scrapy框架基本使用
scrapy
11- Scrapy-Redis分布式
基于python的scrapy框架爬取豆瓣电影及其可视化！
09-Scrapy基础
Scrapy框架学习---配置安装(二)
关于scrapy框架
Scrapy框架的使用
2018-09-05 scrapy-spider(一)
Scrapy框架的使用

在爬虫技术中，我们使用 Requests 和 Selenium 可以解决80%的需求，那么为什么我们还需要学习 Scrapy 框架呢？因为它可以使我们的爬虫更快、更强。

Scrapy 的基本概念

我们来看下官方文档的定义：

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 </br></br>
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

简单来说，Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了 Twisted 异步网络框架，可加快我们的下载速度。我们之前为了加快爬虫效率，一般都是设计多线程来实现。当我们学习完了 Scrapy 之后，我们就可以不去考虑这些了，因为 Scrapy 框架已经帮我们实现了。因此我们可以用更少的代码更稳定的操作来爬取数据了。

Scrapy 的流程

简单爬虫流程

我们之前的爬虫经典流程是这样的：

爬虫基本流程.png

我们首先定义了一个 URL 列表，用来存储需要请求的 URL
接着我们从 URL 列表中取出 URL 进行请求，获取返回响应内容
接着我们一方面从响应内容里面提取数据，将解析后的数据存储起来；另一方面如果响应内容里面有我们需要请求的 URL ，我们还需要将提取的 URL 加到 URL 列表中

改进版爬虫流程

接下来我们来看一下改进版的爬虫流程：

改进版爬虫流程.png

我们把基本流程里面的 URL 列表改为了 URL 队列
我们获取队列中的 URL 发送请求
同样的，我们会提取请求返回的内容，获得需要的数据和新的 URL ，对于提取的 URL ，我们将其放入 URL 队列中，而对于提取的数据，我们将其放在数据队列中以等待后续处理。

这个改进版的流程里面主要在 URL 调度池以及提取的数据处理两处地方增加了队列机制，这么做可以让我们对这几个关键步骤进行异步处理，提高爬取效率。

Scrapy 流程

现在，我们再来看看 Scrapy 的流程：

scrapy流程.jpg

这是一张流行的经典的 Scrapy 流程图（让我们向图的作者致敬），对 Scrapy 的整个流程表现得很生动。

这个流程其实跟改进版的爬虫流程很相似，在改进版流程的基础上又做了一次进化。主要是在我们的流程中增加了一个 CPU（Scrapy 引擎），整个流程的各个部分都要经过这个引擎来统一调配。

下面我们来介绍一下这个流程图中的各个部件的功能作用：

Scrapy Engine（引擎）: 负责 Spider、ItemPipeline、Downloader、Scheduler 中间的通讯，信号、数据传递等。
Scheduler（调度器）: 它负责接受引擎发送过来的 Request 请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载 Scrapy Engine（引擎）发送的所有 Requests 请求，并将其获取到的 Responses 交还给 Scrapy Engine（引擎），由引擎交给 Spider 来处理。
Spider（爬虫）：它负责处理所有 Responses ,从中分析提取数据，获取 Item 字段需要的数据，并将需要跟进的 URL 提交给引擎，再次进入 Scheduler（调度器）。
Item Pipeline（管道）：它负责处理 Spider 中获取到的 Item ，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider 中间件）：你可以理解为是一个可以自定扩展和操作引擎和 Spider 中间通信的功能组件（比如进入 Spider 的 Responses 和从 Spider 出去的 Requests）

整个的运行流程，这里借用网络上某个大佬的段子（我觉得写得很通俗易懂）来展示：

1 引擎：Hi！Spider, 你要处理哪一个网站？
2 Spider：老大要我处理xxxx.com。
3 引擎：你把第一个需要处理的 URL 给我吧。
4 Spider：给你，第一个 URL 是xxxxxxx.com。
5 引擎：Hi！调度器，我这有 request 请求你帮我排序入队一下。
6 调度器：好的，正在处理你等一下。
7 引擎：Hi！调度器，把你处理好的 request 请求给我。
8 调度器：给你，这是我处理好的 request 。
9 引擎：Hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个 request 请求。
10 下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个 request 下载失败了。然后引擎告诉调度器，这个 request 下载失败了，你记录一下，我们待会儿再下载）。
11 引擎：Hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处理一下（注意！这儿 responses 默认是交给 def parse() 这个函数处理的）。
12 Spider：（处理完毕数据之后对于需要跟进的 URL ），Hi！引擎，我这里有两个结果，这个是我需要跟进的 URL，还有这个是我获取到的 Item 数据。
13 引擎：Hi ！管道我这儿有个 item 你帮我处理一下！调度器！这是需要跟进 URL 你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。
14 管道调度器：好的，现在就做！