什么是Scrapy

Scrapy是一种快速的高级的网络爬虫和数据抓取框架，用于对网站进行爬取并从其页面提取结构化数据，被广泛用于数据挖掘和自动化测试。

安装Scrapy

在Linux、MacOS上直接使用pip安装就可以了。但是在Windows安装会报错，这是由于其依赖的twisted这个异步网络框架在pip安装中出现错误，此时我们可以在一个网站上搜索 twisted 下载下来的是一个wheel格式的文件，我们可以使用pip来安装它。(下载的时候需要注意平台) 然后我们再次使用pip安装scrapy就好了。

框架概览

scrapy框架数据流.png

数据流

Scrapy的爬取以及处理数据的方式就是在上面的组件中来回流动：

引擎从spider中得到一个初始的request来开始爬虫
引擎将请求发送给调度器并且继续要求一个request去爬取
调度器将从引擎得到的请求进行排队，在引擎需要的时候发送给引擎
引擎将请求发送给下载器，期间需要通过下载器请求中间件(process_request())的处理
下载器一旦下载页面完成，会将得到的Response传递给引擎，其中需要通过下载器响应中间件(process_response())的处理
引擎从下载器中得到响应后，会把他们传递给spider来处理，其中需要通过spider输入中间件(process_spider_input())处理
spider得到这个响应并且分析这个响应将其分割为数据和新的请求，其中将数据通过spider输出中间件(process_spider_output())发送给引擎，而新的request直接发送给引擎就像第一步那样。
引擎得到数据并发送给Item Pipelines,而新的请求直接发送给调度器。
重复以上过程直到没有新的请求为止。