Scrapy简单笔记(三)

作者: 布拉豆 | 来源:发表于2017-03-21 13:47 被阅读51次

Scrapy功能介绍

示例的scrapy项目非常的简单,熟练爬虫的程序员可以一个脚本搞定以上全部内容,但scrapy并不是一个简单的打开、分析、下载操作集合

  • 它有非常强大的拓展功能,可以非常方便的定制爬虫的一些特性
  • 将调度器、下载、分析、数据清理等操作分割,管理和拓展都非常的方便

1、下载项目图片

Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。

这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:

  • 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
  • 避免重新下载最近已经下载过的图片
  • 缩略图生成
  • 检测图像的宽/高,确保它们满足最小限制

2、自动限速扩展

该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。

设计目标

  • 更友好的对待网站,而不使用默认的下载延迟0。
  • 自动调整scrapy来优化下载速度,使得用户不用调节下载延迟及并发请求数来找到优化的值。 用户只需指定允许的最大并发请求数,剩下的都交给扩展来完成。

3、Jobs:暂停,恢复爬虫

有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。

Scrapy通过如下工具支持这个功能:

  • 一个把调度请求保存在磁盘的调度器
  • 一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
  • 一个能持续保持爬虫状态(键/
    ![Uploading 调查二维码图标_202904.PNG . . .]
    值对)的扩展

有问题可以进群QQ:569340548

参与问卷调查,有机会送书哟~

链接:https://sojump.com/jq/12779681.aspx

调查问卷二维码:

二维码

Scrapy课程链接:http://study.163.com/course/courseMain.htm?courseId=1003666043

Python教程、教程--传送门

相关文章

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy简单笔记(三)

    Scrapy功能介绍 示例的scrapy项目非常的简单,熟练爬虫的程序员可以一个脚本搞定以上全部内容,但scrap...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • scrapy学习笔记(有示例版)

    scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...

  • Scrapy简单笔记(二)

    数据库操作语言--sql 创建数据库表格的sql语句,输入表格名,括号内是表格的列名【随意】及类型【字符串varc...

  • Scrapy简单笔记(一)

    Python内置函数 zip() 介绍 对不同长度的列表使用zip函数,以最短的为例,在长列表中截取同短列表长度的...

  • scrapy爬虫折腾系列-02

    Scrapy折腾系列-02 1、笔记 response是一个scrapy.http.response.html.H...

  • scrapy-redis的简单理解及主要参数设定

    scrapy-redis 官方github地址 1, scrapy-redis的简单理解 Scrapy 是一个通用...

  • python3 scrapy_redis 分布式爬取房天下存mo

    (一)scrapy_redis 简单介绍 scrapy_redis基于scrapy框架的基础上集成了redis,通...

网友评论

    本文标题:Scrapy简单笔记(三)

    本文链接:https://www.haomeiwen.com/subject/ilqgnttx.html