Python爬虫学习（十六）初窥Scrapy

作者: 弃用中 | 来源:发表于2018-01-04 18:32 被阅读396次

Python爬虫学习（十七）Scrapy命令行工具
Python爬虫学习（十六）初窥Scrapy
Python爬虫----初窥Scrapy
Python爬虫学习教程：Scrapy爬虫框架入门
Scrapy 1.4 + Python 3.6模拟登陆知乎
Python爬虫中Scrapy下操作pipeline.py文件
windows环境下安装Python Scrapy
Python + Scrapy爬取高逼格音乐网站《落网》
ubuntu 16.04 安装 Scrapy
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM

Python爬虫学习（一）概述
 Python爬虫学习（二）urllib基础使用
 Python爬虫学习（三）urllib进阶使用
 Python爬虫学习（四）正则表达式
 Python爬虫学习（五）爬取电影排行榜及其图片
 Python爬虫学习（六）BeautifulSoup来袭
 Python爬虫学习（七）爬取淘女郎
 Python爬虫学习（八）爬取知乎关注用户

Python爬虫学习（九）Requests库初探
 Python爬虫学习（十）Requests库探探
 Python爬虫学习（十一）使用Request爬取猫眼电影排行
 Python爬虫学习（十二）selenium来了
 Python爬虫学习（十三）使用selenium爬取淘宝商品

Python爬虫学习（十四）美女写真套图（一）
Python爬虫学习（十五）美女写真套图（二）

此Scrapy篇第一回，那我们就先尝尝鲜，写一个小项目。关于Scrapy的安装，请参考：

如何在Windows下安装Scrapy
Installation guide

我们主要是去抓取：http://quotes.toscrape.com/，这个网站中的名人名言，下面开始表演：

创建一个工程

在我们开始爬取之前，需要新建一个Scrapy工程。我们可以先进入任何一个你想存放代码的目录，运行命令：scrapy startproject quotetutorial

创建工程

运行成功后，Scrapy将会在当前目录下自动创建一个名为quotetutorial的文件夹，包括如下的结构：

quotetutorial/
    scrapy.cfg            # deploy configuration file

    quotetutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

第一个Spider

Spider是一个我们在Scrapy用来爬取网页抓取信息的类（统称为Spider），它必须继承scrapy.Spider，并且定义一些方法及属性才能按需工作。比如，提取哪些信息，请求哪些网址等等。

我们可以进入之前的quotetutorial目录中，运行命令：scrapy genspider quotes quotes.toscrape.com，Scrapy按照命令帮我们写好了一个Spider，在子目录spider中可以找到一个名为quotes.py的文件，打开查看：

Spider代码

我们将代码改写如下：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

如你所见，我们的Spider继承了scrapy.Spider，并且定义了一些属性和方法。

name:标识了这个Spider。在一个项目中，每个Spider的名字必须是独一无二的。
start_requests():必须返回一个可迭代对象，比如一个请求的列表或一个生成函数，Scrapy就是从这确定从哪开始爬取的。
parse():我们在这个方法中处理发出请求后返回的响应，响应是TextResponse的实例。我们在这个方法中提取所需要的信息，或者找到下一个进行爬取的链接。