美文网首页
Scrapy框架的基本使用

Scrapy框架的基本使用

作者: 关键先生耶 | 来源:发表于2018-11-01 20:25 被阅读141次

1:什么是Scrapy框架

Scrapy一个开源和协作的框架是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

2:Scrapy构架图:

重点记忆*

3:牢记它们各个的作用

理解记忆*

3:创建项目

创建项目.png

4:项目目录

项目目录.png

5:解析器

解析器.png

最后整理一下scrapy的操作流程:

  • name
    - start_url, start_requests
    - request对象,封装:请求相关和回调函数
    - reponse对象,封装:响应相关和请求相关
    - 获取start_requests中返回的【迭代器】
    - 执行爬虫中间件 process_start_requests
    - 去重规则:request_seen
    - 放入调度器,requests可能会有序列化操作,===> enqueue_request
    - 去调度器中获取任务, ===> next_request
    - 下载中间件
    - 设置请求头
    - 代理【内置 _proxy;自定义下载中间件】
    - 自己下载返回response
    - 爬虫的回调函数 parse
    yield request对象
    yield item对象
    - pipeline
    - 扩展,基于信号
    - Https

相关文章

网友评论

      本文标题:Scrapy框架的基本使用

      本文链接:https://www.haomeiwen.com/subject/zjuisftx.html