美文网首页
Scrapyd使用教程

Scrapyd使用教程

作者: 轻语风 | 来源:发表于2020-07-08 23:08 被阅读0次
    • Scrapyd是一个服务,用来运行scrapy爬虫的
    • 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫
    • 官方文档:http://scrapyd.readthedocs.org/

    安装

    pip install scrapyd
    

    安装完成后会在本地anaconda安装目录中的Scripts下生成scrapyd.exe
    打开命令行,输入scrapyd,如下图:


    image.png

    理解scrapyd

    crapyd其实就是一个服务器端,真正在部署爬虫的时候,我们需要两个东西:

    1. scrapyd (安装在服务器端)
    2. scrapy-client (客户端)
      scrapy-client,它允许我们将本地的scrapy项目打包发送到scrapyd 这个服务端
      安装 scrapy-client:
    pip install scrapyd-client
    

    部署scrapy项目

    在scrapy项目目录下,有一个scrapy.cfg的配置文件:


    image.png
    image.png

    demo:命名(可随意)
    project:工程名
    在本地anaconda安装目录中的Scripts下查看有没有scrapyd-deploy文件,然后在同名目录下创建文本文件命名为scrapyd-deploy.bat

    @echo off
    
    "F:\Python\anaconda\abc\python.exe"       #anaconda安装目录下的python环境
    "F:\Python\anaconda\abc\Scripts\scrapyd-deploy" %*     #anaconda安装目录下Scripts下scrapyd-deploy所在目录
    

    进入爬虫根目录,运行以下命令

    scrapyd-deploy
    
    image.png
    出现以上提示命令则运行成功
    注意:一定要进入爬虫根目录,就是带有scrapy.cfg的那一层及目录。
    接着运行以下命令:
    scrapyd-deploy demo -p china          #demo为自己命名的,同上
                                         #china为项目名称
    

    结果如下图


    image.png

    到这一步,只是把爬虫项目上传到服务端,并没有启动,
    接下来看看如何启动:
    先运行命令查看服务端状态:

    curl http://localhost:6800/daemonstatus.json
    
    图片.png

    返回的信息告诉我们:都为0
    再执行启动命令:

    curl http://localhost:6800/schedule.json -d project=china -d spider=china
    #project=工程名
    #spider=项目名称
    

    然后查看网页127.0.0.1:6800


    图片.png

    点击Jobs


    图片.png
    这边就是我们爬虫运行的状态以及日志。

    相关文章

      网友评论

          本文标题:Scrapyd使用教程

          本文链接:https://www.haomeiwen.com/subject/extkcktx.html