美文网首页
scrapy 流程图

scrapy 流程图

作者: 恬恬i阿萌妹O_o | 来源:发表于2018-12-03 23:54 被阅读0次

五大模块
中间的是引擎: 引擎负责各个模块之间的通信与调度
引擎的下面是 spiders 爬虫文件
引擎的上面是调度器
引擎的左面是数据管道
引擎的右面是下载器
引擎和下载器中间是 下载中间件
引擎和爬虫中间是 爬虫中间件

具体的运行流程:

  1. spiders 爬虫文件里面有一个start_url的参数,里面放的就是我们要爬取的目标url ,
  2. 把要爬取的url 构建一个request 请求,经过爬虫中间件给引擎,经过引擎给调度器,把任务存放在任务队列里面,
  3. 如果要获取数据的时候,从调度器里面拿数据给引擎,
  4. 引擎拿到请求之后,经过下载中间件给下载器 (request 请求),把request 给我们的下载器,
  5. 下载器根据引擎发过来的任务,向对方服务器发起请求拿到一个response 响应,
  6. 最终把响应通过下载中间件,经过引擎,经过爬虫中间件,最终给spiders 爬虫文件(最终把response响应给爬虫文件),
  7. 爬虫文件拿到响应之后在爬虫文件里面做两件事 (1.解析响应,提取目标数据,2.提取新的url),
  8. 爬虫文件拿到item 数据给管道(item 数据),管道拿到数据之后做数据的过滤和持久化。

相关文章

  • 爬虫之Scrapy框架--------> @_@

    scrapy框架的流程图2018-11-01框架流程图 1、scrapy框架主要为个块      (1)Scrap...

  • Scrapy-Redis简介(六)

    Scrapy-Redis简介流程说明 下图为scrapy-redis的流程图: 流程图redis服务端为Msate...

  • scrapy 框架

    scrapy框架的流程图 1、scrapy框架主要为个块(1)Scrapy Engine(引擎): 负责Spide...

  • Scrapy-Redis简介(六)

    Scrapy-Redis简介 流程说明 下图为scrapy-redis的流程图: redis服务端为Msater端...

  • scrapy 流程图

    五大模块中间的是引擎: 引擎负责各个模块之间的通信与调度引擎的下面是 spiders 爬虫文件引擎的上面是调度器引...

  • scrapy执行流程图

    用scrapy框架的时候,一定要先明白执行的顺序:spiders的yeild将request发送给引擎,引擎 对r...

  • (5)scrapy运行流程图(scrapy源码)

    留个笔记。点查看原图,然后下载图片到本地才能看清

  • scrapy框架

    爬虫框架:scrapy 特点:爬取效率高、扩展性强,python编写跨平台运行工作流程图: 一: 数据流由执行引擎...

  • 爬虫框架scrapy篇一——scrapy的架构

    1、架构图 先上官方的架构图 流程图,看起来清晰一点 2、模块功能 引擎(Engine) scrapy的核心,负责...

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

网友评论

      本文标题:scrapy 流程图

      本文链接:https://www.haomeiwen.com/subject/pakpcqtx.html