原理：Scrapy架构分析

原理：Scrapy架构分析

作者: jdzhangxin | 来源:发表于2018-12-02 09:36 被阅读47次

原理：Scrapy架构分析
scrapy分布式爬虫scrapy_redis一篇
34.scrapy_redis原理分析并实现断点续爬以及分布式爬
《大型网站技术架构：核心原理与案例分析》
python爬虫13：scrapy
scrapy笔记
秒杀系统架构分析、设计、原理书目录
scrapy框架
09-Scrapy基础
提取Scrapy 爬虫概念

1. 组件(Component)

Scrapy一共有七个主要组件

No.	组件	功能	说明
1	爬虫引擎(Scrapy Engine)	负责控制数据流在系统中所有组件中流动	相当于发动机
2	调度器(Scheduler)	从引擎接受`request`并将他们入队，以便之后引擎请求他们时提供给引擎	相当于`request`管家
3	下载器(Downloader)	负责获取页面数据并提供给引擎，而后提供给`spider`。
4	爬虫(Spiders)	分析`response`并提取`item`，或者发出新的请求。
5	项目管道(Item Pipelines)	负责处理被`spider`提取出来的`item`，保存处理数据
6	爬虫中间件(Spider middlewares)	引擎及`Spider`之间的特定钩子，处理spider的输入(`response`)和输出(`items`及`requests`)
7	下载中间件(Downloader middlewares)	引擎及下载器之间的特定钩子，处理`Downloader`传递给引擎的`response`。

2. 数据流(Data flow)

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

3. 中间件

No.	中间件	输入	输出
1	爬虫中间件(Spider Middleware)	`process_spider_input()`	`process_spider_output()`
2	下载器中间件(Download Middleware)	`process_request()`	`process_response()`

相关文章

原理：Scrapy架构分析
1. 组件(Component) Scrapy一共有七个主要组件 2. 数据流(Data flow) Scrapy...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构：可以看到，scrapy单机模式，通过一个scrapy引擎...
34.scrapy_redis原理分析并实现断点续爬以及分布式爬
scrapy_redis原理分析并实现断点续爬以及分布式爬虫学习目标了解 scrapy实现去重的原理了解 s...
《大型网站技术架构：核心原理与案例分析》
大型网站技术架构：核心原理与案例分析
python爬虫13：scrapy
scrapy的结构 scrapy的工作原理 scrapy的用法
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
秒杀系统架构分析、设计、原理书目录
秒杀系统架构分析、设计、原理秒杀业务分析秒杀技术挑战秒杀架构原则秒杀架构设计大并发带来的挑战作弊的手段...
scrapy框架
一、scrapy简介二、scrapy原理三、scrapy工作流程四、scrapy框架的创建五、scrapy...
09-Scrapy基础
一. Scrapy 框架介绍 Scrapy架构图安装Scrapy 二. 使用Scrapy 使用爬虫可以遵循以下步...
提取Scrapy 爬虫概念
（1）Scrapy 的基本架构图和原理（2）模拟登录（3） HTML和XPath （4）爬取动态网页（6）爬...

网友评论

本文标题：原理：Scrapy架构分析

本文链接：https://www.haomeiwen.com/subject/harnqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|原理：Scrapy架构分析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！