美文网首页
Scrapy项目部署(三十一)

Scrapy项目部署(三十一)

作者: 梦捷者 | 来源:发表于2019-08-02 19:56 被阅读0次

一、scrapyd(将爬虫部署到Scrapyd中)简介

  • Scrapyd是一个运行Scrapy spider的开源应用程序。它能够运行和监控Scrapy蜘蛛(爬虫)。要将spider部署到Scrapyd,可以使用由Scrapyd客户端包提供的Scrapyd-deploy工具。

二、Scrapyd安装

1、Scrapyd依赖于以下库,但安装过程负责安装缺少的库:

  • Python2.6以上
  • Twisted8.0以上
  • Scrapy0.17以上

2、如何安装Scrapyd取决于您正在使用的平台。通用的方法是通过pip包管理工具来安装它:

  • pip install scrapyd

3、安装之后 通过scrapyd命令启动即可:

  • 运行命令:scrapyd

4、scrapyd带有一个最小的Web界面,启动后,通过访问http://localhost:6800。如下图:

三、 项目部署流程

  • 1、安装scrapyd-client:
    pip install scrapyd-client

  • 2、cd到项目根目录,修改scrapy.cfg文件
  • 3、将爬虫部署到scrapyd中。
    (1)在ubuntu中直接在根目录运行命令,语法如下:scrapyd-deploy <target> -p <projectname>
    (2)在windows下:python absolute_dir/scrapyd-deploy.py xinlan

  • 4、部署操作会打包你当前项目。从返回的结果里面,可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前主机名称。

  • 5、执行以下命令启动爬虫:
    curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名字

  • 6、执行以下命令停止爬虫:
    curl http://localhost:6800/cancel.json -d project=tutorial -d job=4fc26e4209da11e9b344000c292b8398

四、API(scrapyd主要是用来监控爬虫的运行,进行调度的是scrapyd中的API)

scrapyd的web界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。
官方文档:https://scrapyd.readthedocs.io/en/latest/api.html

五、scrapyd设置

Scrapyd在以下位置搜索配置文件,并按顺序解析它们,最新的配置文件具有更高的优先级:

  • 0/etc/scrapyd/scrapyd.conf (Unix)

  • c:\scrapyd\scrapyd.conf (Windows)

  • /etc/scrapyd/conf.d/* (in alphabetical order, Unix)

  • scrapyd.conf

  • ~/.scrapyd.conf (users home directory)

相关文章

网友评论

      本文标题:Scrapy项目部署(三十一)

      本文链接:https://www.haomeiwen.com/subject/xyyrdctx.html