Scrapy 源码剖析

Scrapy 源码剖析

作者: 逍遥_yjz | 来源:发表于2021-07-08 09:30 被阅读0次

Scrapy 源码剖析
源码剖析--SVPullToRefresh
YYWebImage 源码剖析：线程调度与缓存策略
scrapy笔记
Jetty9源码剖析 - 文章汇总
Kafka源码剖析
YYImage 源码剖析：图片处理技巧
Netty之八核心源码剖析
爬取豆瓣有关张国荣日记（二）—— 策略源码知识点
Eureka源码剖析之四：服务续约

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

Scrapy的运作流程
代码写好，程序开始运行...

1 引擎：Hi！Spider, 你要处理哪一个网站？
2 Spider：老大要我处理xxxx.com。
3 引擎：你把第一个需要处理的URL给我吧。
4 Spider：给你，第一个URL是xxxxxxx.com。
5 引擎：Hi！调度器，我这有request请求你帮我排序入队一下。
6 调度器：好的，正在处理你等一下。
7 引擎：Hi！调度器，把你处理好的request请求给我。
8 调度器：给你，这是我处理好的request
9 引擎：Hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个request请求
10 下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）
11 引擎：Hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处理一下（注意！这儿responses默认是交给def parse()这个函数处理的）
12 Spider：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。
13 引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。
14 管道调度器：好的，现在就做！
注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的URL，Scrapy也会重新下载。）

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容
Scrapy 源码剖析（1）：架构概览

相关文章

Scrapy 源码剖析
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Sched...
源码剖析--SVPullToRefresh
源码剖析--SVPullToRefresh 源码剖析--SVPullToRefresh
YYWebImage 源码剖析：线程调度与缓存策略
系列文章：YYCache 源码剖析：一览亮点YYModel 源码剖析：关注性能YYAsyncLayer 源码剖析：...
scrapy笔记
scrapy源码https://github.com/scrapy/scrapy/tree/master/scra...
Jetty9源码剖析 - 文章汇总
Jetty9源码剖析 - 前沿Jetty9源码剖析 - 设计规范Jetty9源码剖析 - 总体架构Jetty9源码...
Kafka源码剖析
Kafka源码剖析 Kafka源码剖析之源码阅读环境搭建首先下载源码:http://archive.apache...
YYImage 源码剖析：图片处理技巧
YYImage 源码剖析：图片处理技巧 YYImage 源码剖析：图片处理技巧
Netty之八核心源码剖析
个人专题目录 1. Netty之核心源码剖析 1.1 Netty 启动过程源码剖析源码需要剖析到Netty 调用...
爬取豆瓣有关张国荣日记（二）—— 策略源码知识点
本篇介绍爬取豆瓣日记的策略分析、源码剖析、知识点汇总（先放个封面图）本来想用Scrapy来爬的，结果连续被ba...
Eureka源码剖析之四：服务续约
Eureka源码剖析之一：初始化-启动 Eureka源码剖析之二：服务注册 Eureka源码剖析之三：服务拉取这...

网友评论

本文标题：Scrapy 源码剖析

本文链接：https://www.haomeiwen.com/subject/snmoultx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy 源码剖析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！