程序员用一个爬虫小案例，带你了解scarpy爬虫框架

程序员用一个爬虫小案例，带你了解scarpy爬虫框架

作者: Python末末 | 来源:发表于2018-07-31 18:41 被阅读134次

程序员用一个爬虫小案例，带你了解scarpy爬虫框架
Microsoft visual c++ 14.0 is req
爬虫框架pyspider的使用
Scrapy框架学习1
一、用Scrapy框架开发爬虫
使用feapder开发爬虫是怎样的体验
Scrapy 框架基本了解以及Spiders爬虫
Scrapy爬虫框架结构
java爬虫（二）-- httpClient模拟Http请求+j
Python爬虫(六)--Scrapy框架学习

内容

Scrapy shell

只要了解了Scrapy shell，就会发现它是开发和调试你的爬虫的一个非常宝贵的工具。

配置shell

可以通过scrapy设置配置为使用中的任何一个 ipython，bpython或标准python外壳，安装无论哪个。这是通过设置SCRAPY_PYTHON_SHELL环境变量来完成的; 或通过在scrapy.cfg中定义它：

启动shell

使用shell命令，可以启动Scrapy shell，：

其中，是您要抓取的网址。

shell也适用于本地文件。如果你想玩一个网页的本地副本，这可以很方便。shell了解本地文件的以下语法：

注意

当使用相对文件路径时，是显式的，并在它们前面./（或../相关时）。将不会像一个人所期望的那样工作（这是设计，而不是一个错误）。scrapy shell index.html

因为shell喜欢文件URI上的HTTP URL，并且index.html在语法上类似example.com， shell会将其视为index.html域名并触发DNS查找错误：

shell将不会预先测试index.html 当前目录中是否存在调用的文件。

使用shell

Scrapy shell只是一个普通的Python控制台，为方便起见，它提供了一些额外的快捷方式功能。

可用快捷键

可用Scrapy对象

Scrapy shell自动从下载的页面创建一些方便的对象，如Response对象和 Selector对象（对于HTML和XML内容）。

这些对象是：

shell会话的示例

下面是一个典型的shell会话示例，我们首先抓取 http://scrapy.org页面，然后继续抓取https://reddit.com 页面。最后，我们将（Reddit）请求方法修改为POST并重新获取它获取错误。我们通过在Windows中键入Ctrl-D（在Unix系统中）或Ctrl-Z结束会话。

然后，shell获取URL（使用Scrapy下载器）并打印可用对象和有用的快捷方式列表（您会注意到这些行都以[s]前缀开头）：

之后，我们可以开始使用对象：

从爬虫调用shell检查响应

在检查爬虫的某一点被处理的响应，如果只检查你期望的响应到达那里。

这可以通过使用该scrapy.shell.inspect_response功能来实现。

给大家打一个怎么从爬虫调用它的例子：

当你运行爬虫，你会得到类似的东西：

再检查提取代码是否正常工作：

可以在Web浏览器中打开响应，看一下有没有响应：

最后，您按Ctrl-D（或Windows中的Ctrl-Z）退出外壳并继续抓取：

当不能使用fetch此处的快捷方式，因为Scrapy引擎被shell阻止。在离开shell之后，爬虫会继续爬到它停止的地方，如上图所示。

相关文章

程序员用一个爬虫小案例，带你了解scarpy爬虫框架
内容 Scrapy shell 只要了解了Scrapy shell，就会发现它是开发和调试你的爬虫的一个非常宝贵的...
Microsoft visual c++ 14.0 is req
最近在学python爬虫但是安装scarpy框架的时候报错 Microsoft visual c++ 14.0 ...
爬虫框架pyspider的使用
概要：了解了爬虫的基础知识后，接下来我们来使用框架来写爬虫，用框架会使我们写爬虫更加简单，接下来我们来了解一下，p...
Scrapy框架学习1
scrapy爬虫框架结构爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合爬虫框架是一个半成品...
一、用Scrapy框架开发爬虫
用Scrapy框架做一个爬虫，将结果保存到MongoDB 本文用Scrapy框架实现一个爬虫的例子，Scrapy的...
使用feapder开发爬虫是怎样的体验
之前，我们写爬虫，用的最多的框架莫过于scrapy啦，今天我们用最近新出的爬虫框架feapder来开发爬虫，看下是...
Scrapy 框架基本了解以及Spiders爬虫
Scrapy 框架基本了解以及Spiders爬虫，首先我们先了解下Scrapy 框架基本原理，然后我们用一个简单的...
Scrapy爬虫框架结构
Scrapy不是一个函数功能库。而是一个爬虫框架什么是爬虫框架？爬虫框架是实现爬虫功能的一个软件结构和功能组件集合...
java爬虫（二）-- httpClient模拟Http请求+j
前言在了解了爬虫的大概原理和目前的技术现状之后，我就开始了java爬虫的蹒跚之旅。首先我想到的是用框架，了解到...
Python爬虫(六)--Scrapy框架学习
本文希望达到以下目标: 简要介绍Scarpy 阅读官网入门文档并实现文档中的范例使用Scarpy优豆瓣爬虫的抓取...

网友评论

本文标题：程序员用一个爬虫小案例，带你了解scarpy爬虫框架

本文链接：https://www.haomeiwen.com/subject/hfzhvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|程序员用一个爬虫小案例，带你了解scarpy爬虫框架|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！