美文网首页
ubuntu系统中使用scrapyd管理scrapy项目简明教程

ubuntu系统中使用scrapyd管理scrapy项目简明教程

作者: 小小 | 来源:发表于2017-01-21 17:37 被阅读785次

    本文只是一个简明教程,如果要深入研究和学习,强烈建议你看官方文档。

    scrapyd和scrapyd-client是什么

    scrapyd是免费开源的工具,用来管理你创建的scrapy项目的有界面的管理工具。
    scrapy-client是是免费开源的工具,用来打包并发布你的scrapy项目到scrapyd。用scrapyd发布要麻烦一些。这个工具简化了发布步骤。

    scrapyd安装方法

    本人试过使用pip install scrapyd 安装,但失败。使用源代码安装成功,下面是使用源代码安装方法。

    第一步:git 源代码到本地

    git clone https://github.com/scrapy/scrapyd.git
    

    第二步:从源代码中安装

    在终端CD进入源代码目录。

    python3 setup.py install
    

    scrapyd-client安装方法

    与scrapyd安装基本一样

    第一步:git 源代码到本地

    git clone https://github.com/scrapy/scrapyd-client.git
    

    第二步:从源代码中安装

    在终端CD进入源代码目录。

    python3 setup.py install
    

    开启scrapyd

    在终端使用scrapyd命令启动。
    打开管理界面地址:http://localhost:6800/

    发布scrapy项目到scrapyd

    发布一个scrapy项目有几种方法,这里介绍最简单的一种。
    第一步:在终端使用cd命令进入scrapy项目根目录,打开scrapy.cfg,按下面默认的格式修改。修改目标地址url和项目名称project。

    [deploy]
    url = http://localhost:6800/
    username = scrapy
    password = secret
    project = yourproject
    

    第二步:使用下面命令打包项目

    scrapyd-deploy
    

    打包成功返回的信息

    Deploying to project "gjtjj" in http://localhost:6800/addversion.json
    Server response (200):
    {"status": "ok", "spiders": 1, "node_name": "chg-vm", "project": "gjtjj", "version": "1484986344"}
    
    

    第三步:上传并发布项目
    你只需要修改project名称与你发布时一致,spider名称与你的爬虫名称一致就可以。

    curl http://localhost:6800/schedule.json -d project=gjtjj -d spider=gjtjjSpider
    

    发布成功返回的信息

    {"status": "ok", "jobid": "8d2be2b2dfb211e6b92d000c2967de0e", "node_name": "chg-vm"}
    

    第四步:打开目标地址http://localhost:6800/, 你发布的项目就是JOB,通过log查看运行情况。

    QQ截图20170121173631.png QQ截图20170121173612.png

    相关文章

      网友评论

          本文标题:ubuntu系统中使用scrapyd管理scrapy项目简明教程

          本文链接:https://www.haomeiwen.com/subject/emqnbttx.html