Scrapy快速入门

作者: 乔治大叔 | 来源:发表于2019-11-03 20:47 被阅读0次

scrapy 快速入门
Scrapy快速入门
爬虫-scrapy快速入门
Scrapy快速入门实战
scrapy笔记
Scrapy入门案例
scrapy小记
scrapy 进阶使用
28.scrapy的入门使用
scrapy入门使用及pycharm远程调试

一、Scrapy 简介

一个快速、高层次的屏幕抓取和web抓取的Python框架，用于抓取web站点并从页面中提取结构化的数据，可以用于数据挖掘、监测和自动化测试，可根据具体需求个性化定制。
Scrapy架构图：

架构图.png

各组件介绍
ENGINE

引擎（engine）控制所有部件间的数据流，并在某些事件发生时触发事件

Scheduler

调度器（scheduler）接收来自引擎的request，并对它去重，放入到请队列中；并根据队列的取出规则，把请求按顺序返回给引擎

Downloader

下载器（Downloader）获取网页数据并返回给引擎

Spiders

爬虫（Spiders）用来解析response，提取出Items和新的Requests

Item Pipeline

对Items进行进一步的清洗，并持久化

Downloader middlewares

下载中间件可以勾住下载器和引擎之间的数据流，并对它们做一些处理，比如：

在request送到下载器之前对它做一些处理，可以添加User_Agent，修改IP等
对response做一些处理
Spider middlewares

爬虫中间件可以勾住爬虫和引擎之间的数据流，并对它们做一些处理

二、安装scrapy

pip install scrap

当我们满怀欢喜安装的时候，发现：

Command "/usr/bin/python2 -u -c "import setuptools, tokenize;__file__='/tmp/pip-build-L1Q1wb/Twisted/setup.py';exec(compile(getattr(tokenize, 'open', open)(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /tmp/pip-QWsI2y-record/install-record.txt --single-version-externally-managed --compile" failed with error code 1 in /tmp/pip-build-L1Q1wb/Twisted/
You are using pip version 8.1.2, however version 9.0.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.

神马情况，好像是告诉我们需要使用：