scrapy初探（一）框架

scrapy初探（一）框架

作者: Gavin_hello | 来源:发表于2017-12-13 17:06 被阅读0次

框架

以下是scrapy的框架，绿色箭头表示数据流向。

timg.jpeg

一、详细介绍：

scrapy Engine
爬虫引擎负责控制数据流在系统中的所有组件中流动，并在相应动作发生时触发事件。

调度器（Scheduler）
调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

Spiders
Spiders是scrapy用户编写用于分析response并提取item或额外跟进的url的类。

Item Pipeline
Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证和保存数据。

下载器中间件（Downloader middlewares）
下载中间件是在引擎及下载器中间的特定钩子，处理Downloader传递给引擎的response。

Spider中间件（Spider middlewares）
Spider 中间件是在引擎及Spider之间的特定钩子，处理spider的输入（reponse）和输出（items及requests）。

二、数据流（Data flow）

引擎打开一个网站，找到处理该网站的spider并向该spider请求第一个要爬取的URL。
引擎从spider中获取到第一个要爬取的URL并在调度器（scheduler）以request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件（请求request方向）转发给下载器。
页面下载完毕，下载器生成一个该页面的response，并将其通过下载中间件（返回方向）发给引擎。
引擎从下载器中接受到response并通过spider中间件发送给spider处理。
spider处理response并返回爬取的item和新的reponse给引擎。
引擎将spider返回的item给item pipeline，将spider返回的resquest给调度器。
（从第二步）重复直到调度器中没有request。

相关文章

网友评论

本文标题：scrapy初探（一）框架

本文链接：https://www.haomeiwen.com/subject/bnwaixtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|scrapy初探（一）框架|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！