scrapy爬虫命令

作者: 一杯海风_3163 | 来源:发表于2019-10-18 14:01 被阅读0次

Scrapy项目文件介绍
Python快速开发分布式搜索引擎Scrapy精讲!
python网络爬虫笔记三
Scrapy爬虫入门基础
2020-07-19--scrapy框架2
Python爬虫Scrapy框架：Scrapy爬虫框架与常用命令
【爬虫】-012-Scrapy-内置爬虫介绍
Scrapy命令行动态传参给spider
设置pycharm调试scrapy框架爬虫
初识Scrapy

一、全局命令（cmd中输入scrapy -h查看）
startproject
settings
runspider
shell
fetch
view
version
bench
常用最多的几个命令是startproject、shell、view、version。

创建项目命令

语法：scrapy startproject <project_name>
前置条件：项目不需要存在
示例：scrapy startproject TestDemo001

创建一个shell环境调试response的命令

语法：scrapy shell <url>
前置条件：项目不需要存在
示例：scrapy shell "http://www.yetianlian.com/"
打开cmd命令窗口，运行该命令，（安装IPython的情况下默认启动IPython编辑器）如下图：

如果不想输出log可以使用这个命令：
scrapy shell --nolog "http://www.yetianlian.com/"

查看页面内容

语法：scrapy view <url>
前置条件：项目不需要存在

version—查看版本信息

语法：scrapy version [-v]
前置条件：项目不需要存在

settings—查看配置文件参数命令

语法：scrapy settings [options]
前置条件：项目不需要存在
示例：scrapy settings --get BOT_NAME
输出：scrapybot
显示settings中的具体设置的设定值

runspider 运行爬虫命令

语法：scrapy runspider <spider_file.py>
前置条件：项目不需要存在
示例：scrapy runspider ytl.py
未创建项目的情况下，运行一个编写好的spider模块

fetch 显示爬取过程

语法：scrapy fetch [url]
前置条件：项目存在/不存在均可
示例：scrapy fetch "http://www.yetianlian.com/"
命令其实是在标准输出中显示调用一个爬虫来爬取指定的url的全过程。

bench 硬件测试命令

语法：scrapy bench
前置条件：项目不需要存在
测试scrapy在硬件上运行的效率

二、项目命令

crawl
check
list
edit
parse
genspider
deploy
最常用的几个命令是crawl、genspider。

genspider—通过模板生成scrpay爬虫

查看scrapy genspider 的模板
命令：scrapy genspider -l

语法：scrapy genspider [-t template] <name> <domain>
前置条件：项目需要存在
展示basic模板的内容：scrapy genspider -d basic

示例：创建spider.py,命令：scrapy genspider -t basic ytl yetianlian.com

crawl—启动爬虫命令

语法：scrapy crawl <spider>
前置条件：项目需要存在
示例：scrapy crawl ytl
启动命名为ytl的爬虫（需要cd进入相应的文件目录下，运行该命令）

check—检查爬虫完整性

语法：scrapy check [-l] <spider>
前置条件：项目需要存在
示例：scrapy check ytl
检查一些语法、import和warning等错误

list—查看爬虫列表命令

语法：scrapy list
前置条件：项目需要存在
示例：scrapy list
查看一下这个项目里面目前有哪些爬虫

edit—编辑爬虫命令

语法：scrapy edit <spider>
前置条件：项目需要存在
示例：scrapy edit ytl
用设定的编辑器编辑给定的spider，该命令是提供一个快捷方式，开发者可以自由选择其他工具或者IDE来编写和调试spider。（Linux系统下）

parse—获取给定的URL使用相应的spider分析处理

语法：scrapy parse <url> [options]
前置条件：项目需要存在
示例：scrapy parse "http://www.yetianlian.com/" -c parse
如果提供–callbac选项，可以自动检测spider中的解析方法进行处理。支持以下的选项：

–spider=SPIDER: 没有指定spider的情况下其程序搜索，用这个选项可以强行指定某个spider

–a NAME=VALUE: 用来设定spider需要的参数，可以多个

–callback或-c: 指定spider里面用于处理response的函数,没有强行制定的话，默认使用parse函数

–pipelines:用来指定后续的pipelines,可以灵活定制

–rules或-r: 通过CrawlSpider设定的规则来选取对应的函数当作解析response的回调函数

–noitems: 不显示抓取的items

–nolinks: 不显示提取的链接

–nocolour: 输出的结果不要高亮显示（不建议用）

–depth或-d: 设置爬取深度，默认为1

–verbose或-v: 显示被爬取的每层的相关信息

deploy命令

语法：scrapy deploy [<target:project>|-l<target>|-L]
目的：将项目部署到scrapyd服务。

原文链接：https://blog.csdn.net/Gerald_Jones/article/details/78860754

网友评论

本文标题：scrapy爬虫命令

本文链接：https://www.haomeiwen.com/subject/ovpimctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy爬虫命令

创建项目命令

创建一个shell环境调试response的命令

查看页面内容

version—查看版本信息

settings—查看配置文件参数命令

runspider 运行爬虫命令

fetch 显示爬取过程

bench 硬件测试命令

二、项目命令

genspider—通过模板生成scrpay爬虫

crawl—启动爬虫命令

check—检查爬虫完整性

list—查看爬虫列表命令

edit—编辑爬虫命令

parse—获取给定的URL使用相应的spider分析处理

相关文章

Scrapy项目文件介绍

Python快速开发分布式搜索引擎Scrapy精讲!

python网络爬虫笔记三

Scrapy爬虫入门基础

2020-07-19--scrapy框架2

Python爬虫Scrapy框架：Scrapy爬虫框架与常用命令

【爬虫】-012-Scrapy-内置爬虫介绍

Scrapy命令行动态传参给spider

设置pycharm调试scrapy框架爬虫

初识Scrapy

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读