Scrapy框架模块功能：

Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
Spider（爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。
Scheduler（调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。
Downloader（下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。
Item Pipeline（管道）：负责将Spider（爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。
Downloader Middlewares（下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。
Spider Middlewares（Spider中间件）：可以扩展引擎和爬虫之间通信功能的中间件。

Scrapy文档

安装Scrapy框架

安装‘scrapy’：通过‘pip install scrapy’即可安装。
如果在windows下，还需要安装‘pypiwin32’，安装方式‘pip install pipiwin32’。
如果在ubuntu下，还需安装以下三方库：‘sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev’，然后再通过pip install scrapy安装。

创建项目和爬虫：

创建项目：‘scrapy startproject +爬虫的名字’。
创建爬虫：进入到项目所在路径，执行命令：scrapy genspider +爬虫的名字 +"爬虫的域名"。注意，爬虫的名字不能和项目名称一致。

项目目录结构：

items.py：用来存放爬虫爬取下来数据的模型。
middlewares.py：用来存放各种中间件的文件。
pipelines.py：用来将items的模型存储到本地磁盘中。
settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。
scrapy.cfg：项目的配置文件。
spiders包：以后所有的爬虫，都是存放到这个里面。

糗事百科案例Scrapy爬虫笔记

response是一个‘scrapy.http.response.html.HtmlResponse’对象。可以执行‘xpath’和‘css’语法来提取数据。
提取出来的数据，是一个‘Selector’或者是一个‘SelectorList’对象。如果想要获取其中的字符串，那么应该执行‘getall’或者‘get’方法。
getall方法：获取‘Selector’中的所有文本。返回的是一个列表。
get方法：获取‘Selector’中得第一个文本。返回的是一个str类型。
如果数据解析回来，要传给pipeline处理。那么可以使用‘yield’来返回。或者是收集所有的item，最后统一使用return返回。
item：建议在‘items.py’中定义好模型。以后就不要使用字典。
pipeline：这个是专门用来保存数据的。其中有三个方法时会经常用到：
*‘open_spider(self, spider)’：当爬虫打开的时候执行。
*‘process_item(self, item, spider)’：当爬虫有item传过来的时候被调用。
*‘close_spider(self, spider)’：当爬虫关闭的时候执行。
要激活pipeline，应该在‘settings.py’中，设置‘ITEM_PIPELINES’。

JsonItemExporter和JsonLinesItemExporter:

保存json数据的时候，可以使用这两个类，让操作变得更简单。

‘JsonItemExporter’：每次把数据添加到内存中。最后统一写入到磁盘中。优点：存储的数据满足json规则的数据。缺点：当数据量比较大时，内存消耗严重。示例代码如下:

from scrapy.exporters import JsonItemExporter

    class QsbkPipeline(object):
        def __init__(self):
            self.fp = open("joke.json", "wb")
            self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
            self.exporter.start_exporting()
    
        def open_spider(self, spider):
            print("爬虫开始了")
    
        def process_item(self, item, spider):
            self.exporter.export_item(item)
            return item
    
        def close_spider(self, spider):
            self.exporter.finish_exporting()
            self.fp.close()
            print("爬虫结束了")

‘JsonLinesItemExporter’：每次调用‘export_item’的时候就把这个item存储到硬盘中。优点：内存消耗低，数据安全性高。缺点：每一个字典是一行，整个文件不是一个满足json格式的文件。示例代码如下：

from scrapy.exporters import JsonLinesItemExporter

    class QsbkPipeline(object):
        def __init__(self):
            self.fp = open("joke.json", "wb")
            self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
    
        def open_spider(self, spider):
            print("爬虫开始了")
    
        def process_item(self, item, spider):
            self.exporter.export_item(item)
            return item
    
        def close_spider(self, spider):
            self.fp.close()
            print("爬虫结束了")