美文网首页
scrapy 框架简介

scrapy 框架简介

作者: 特例独行的猪 | 来源:发表于2018-11-09 15:16 被阅读4次

数据流向图:

1:Engine从Spider中得到第一个Requests进行爬取

2:ENGIN将Request放入SCHEDULER调度器,并且获取下个Request

3:SCHEDULER将Requests返回给ENGINE(因为ENGING进行任务调度)

4:ENGINE发送Requests到Downoader,通过Downloader Middlewares 进行处理(这一步进行Http请求,返回response)

5:通过Downloader Middleware进行资源下载(就是html信息),如果下载完成,通过Dowloader生成一个Resonse并且发送给ENGINE

6: ENGINE 从DOWNLOADER接收 Resonse,并将Resonse发送给Spider进行处理。Spider通过Spider Middleware进行处理Response

7: Spider处理Response 并且返回items和新的Requests给ENGINE,这部分处理通过Spilder Middleware进行处理

8:Engine发送items到item Pipelines 然后 发送 Request到Scheduler 并且 获取下个Request进行处理

9:重复第一个步骤进行处理。

组件:

    Scrapy Engine:

          在scrapy中engine是核心部分,负责协调、调度其他组件和触发处理任务

    Scheduler:

          一个消息队列,由Engine来控制消息的进出。消息从spider中获取,写入。 engine又从scheduler中取出消息,进行解析

    Downloader:

          负责接收请求,下载页面,返回response

    Spiders:

            spider是用户自定义类,用来j解析response、提取Items

    Items Pipeline:

            Pipeline负责处理Items.例如:清洗,验证,持久化等

相关文章

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • Python爬虫基础:scrapy框架简介及第一个scrapy爬

    scrapy框架简介 scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前...

  • 2021-07-21

    Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...

  • python scrapy实操

    主要介绍:1、scrapy框架简介、数据在框架内如何进行流动2、scrapy框架安装、mongodb数据库安装3、...

  • scrapy 框架简介

    数据流向图: 1:Engine从Spider中得到第一个Requests进行爬取 2:ENGIN将Request放...

  • Scrapy框架简介

    Scrapy 是一个用 Python 实现的为了爬取网站数据、提取结构性数据的应用框架。Scrapy 使用Twis...

  • Scrapy框架简介

    Scrapy架构图 一、新建项目 scrapy startproject myspider 创建爬虫项目 scra...

  • Scrapy入门学习

    简介 采用异步框架。scrapy中文文档:https://scrapy-chs.readthedocs.io/zh...

  • [CP_14] Python爬虫框架01:Scrapy框架创建项

    目录结构 一、Scrapy框架简介 1. Scrapy引入 Scrapy:是用Python实现爬取网站数据、提取结...

  • 爬虫框架scrapy总结

    scrapy简介: scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架,其架构清晰...

网友评论

      本文标题:scrapy 框架简介

      本文链接:https://www.haomeiwen.com/subject/tvroxqtx.html