(八) Shell

作者: iamlightsmile | 来源:发表于2019-05-04 23:19 被阅读0次

Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。

一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。

启动终端

您可以使用 shell 来启动Scrapy终端:

scrapy shell <url>

<url> 是您要爬取的网页的地址。

使用终端

Scrapy终端仅仅是一个普通的Python终端(或 IPython )。其提供了一些额外的快捷方式。

可用的快捷命令(shortcut)

  • shelp() - 打印可用对象及快捷命令的帮助列表
  • fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response,并更新相关的对象
  • view(response) - 在本机的浏览器打开给定的response。 其会在response的body中添加一个 <base> tag ,使得外部链接(例如图片及css)能正确显示。 注意,该操作会在本地创建一个临时文件,且该文件不会被自动删除。

可用的Scrapy对象

Scrapy终端根据下载的页面会自动创建一些方便使用的对象,例如 Response 对象及 Selector 对象(对HTML及XML内容)。

这些对象有:

  • crawler - 当前 Crawler 对象.
  • spider - 处理URL的spider。 对当前URL没有处理的Spider时则为一个 Spider 对象。
  • request - 最近获取到的页面的 Request 对象。 您可以使用 replace() 修改该request。或者 使用 fetch 快捷方式来获取新的request。
  • response - 包含最近获取到的页面的 Response 对象。
  • sel - 根据最近获取到的response构建的 Selector 对象。
  • settings - 当前的 Scrapy settings

相关文章

  • Shell (八)

    测试 测试结构 一个if/then结构测试一列命令的退出状态是否为0(因为依照惯例,0意味着命令执行成功),如果是...

  • (八) Shell

    Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据...

  • 八、Shell编程

    搭配《linux就该这样学》第四章内容 1.shell历史 Shell的作用是解释执行用户的命令,用户输入一条命令...

  • Llinux03--shell脚本

    [TOC] 八、shell语言 1、简单的shell 代码规范: 文件命名规范:文件名.sh 使用流程: 创建sh...

  • shell技巧分享(八)

    这是一个系列文章,主要分享shell(部分功能仅适用于bash)的使用建议和技巧,每次分享3点,希望你能有所收获。...

  • 八、Shell echo命令

    欢迎加入技术交流群群号: 552340860 Shell 的 echo 指令与 PHP 的 echo 指令类似,...

  • shell命令整理(八)

    系统优化 1、查看平均负载 2、查看CPU每隔10min的使用情况 3.查看进程io使用情况 4.查看内存使用情况...

  • Shell 学习

    shell 变量 shell 参数传递 shell 数组 shell 运算符 shell echo 命令 prin...

  • Shell 概述

    学习 Shell 主要包括的内容: Shell 脚本入门 Shell 变量 Shell 内置命令 Shell 运算...

  • 八、Shell 流程控制

    和Java、PHP等语言不一样,sh的流程控制不可为空,如(以下为PHP流程控制写法): 在sh/bash里可不能...

网友评论

    本文标题:(八) Shell

    本文链接:https://www.haomeiwen.com/subject/gyafoqtx.html