美文网首页
scrapyd项目部署

scrapyd项目部署

作者: 胖腚猴 | 来源:发表于2018-07-09 11:47 被阅读0次

    安装scrapyd

    pip install scrapyd
    
    pip install scrapyd-client
    

    可能会遇到scrapyd-deploy不是windows下的命令的问题。这是由于环境变量找不到导致的。

    在python的安装目录(虚拟环境目录Scrapy)下创建俩同名的bat批处理文件即可: scrapy.bat  和 scrapyd-deploy.bat
    

    在scrapyd-deploy.bat文件中添加一下语句(注意python环境的路径):

    @echo off
    "D:\myvirtualenv\spider_env\Scripts\python.exe" "D:\myvirtualenv\spider_env\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
    

    修改scrapy.cfg文件

    [settings]
    default = sipo_patent.settings
    
    [deploy:test]
    url = http://localhost:6800/
    project = sipo_patent
    

    cdm打开一个控制台窗口,在虚拟环境下 运行scrapyd服务

    scrapyd
    

    浏览器打开http://localhost:6800/ 会看到scrapyd主页面

    cmd再打开一个控制台窗口,再虚拟环境下上传项目

    上传项目:
        进入scrapy爬虫项目sipo_patent目录
        cd sipo_patent
    
        scrapyd-deploy test -p sipo_patent
    
    Packing version 1531106982
    Deploying to project "sipo_patent" in http://localhost:6800/addversion.json
    Server response (200):
    {"node_name": "LAPTOP-CMT1I0CL", "status": "ok", "project": "sipo_patent", "version": "1531106982", "spiders": 1}
    
    说明上传成功!
    

    运行爬虫

    curl http://localhost:6800/schedule.json -d project=sipo_patent -d spider=sipo
    
    这时候浏览器Jobs 和 Logs 会产生记录了
    
    Project Spider  Job PID Start   Runtime Finish  Log
                        Pending
                        Running
                        Finished
    sipo_patent sipo    efda2454832811e8ae177c7635f4212a        2018-07-09 11:34:09 0:01:18 2018-07-09 11:35:27 Log
    
    并且控制台会看到运行的爬虫,正在爬取数据
    

    结束爬虫

    curl http://localhost:6800/cancel.json -d project=sipo_patent -d job=efda2454832811e8ae177c7635f4212a
    
    {"node_name": "LAPTOP-CMT1I0CL", "status": "ok", "prevstate": "running"}
    

    相关文章

      网友评论

          本文标题:scrapyd项目部署

          本文链接:https://www.haomeiwen.com/subject/igvzuftx.html