- Scrapyd是一个服务,用来运行scrapy爬虫的
- 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫
- 官方文档:http://scrapyd.readthedocs.org/
安装
pip install scrapyd
安装完成后会在本地anaconda安装目录中的Scripts下生成scrapyd.exe
打开命令行,输入scrapyd,如下图:
image.png
理解scrapyd
crapyd其实就是一个服务器端,真正在部署爬虫的时候,我们需要两个东西:
- scrapyd (安装在服务器端)
- scrapy-client (客户端)
scrapy-client,它允许我们将本地的scrapy项目打包发送到scrapyd 这个服务端
安装 scrapy-client:
pip install scrapyd-client
部署scrapy项目
在scrapy项目目录下,有一个scrapy.cfg的配置文件:
image.png
image.png
demo:命名(可随意)
project:工程名
在本地anaconda安装目录中的Scripts下查看有没有scrapyd-deploy文件,然后在同名目录下创建文本文件命名为scrapyd-deploy.bat
@echo off
"F:\Python\anaconda\abc\python.exe" #anaconda安装目录下的python环境
"F:\Python\anaconda\abc\Scripts\scrapyd-deploy" %* #anaconda安装目录下Scripts下scrapyd-deploy所在目录
进入爬虫根目录,运行以下命令
scrapyd-deploy
image.png
出现以上提示命令则运行成功
注意:一定要进入爬虫根目录,就是带有scrapy.cfg的那一层及目录。
接着运行以下命令:
scrapyd-deploy demo -p china #demo为自己命名的,同上
#china为项目名称
结果如下图
image.png
到这一步,只是把爬虫项目上传到服务端,并没有启动,
接下来看看如何启动:
先运行命令查看服务端状态:
curl http://localhost:6800/daemonstatus.json
图片.png
返回的信息告诉我们:都为0
再执行启动命令:
curl http://localhost:6800/schedule.json -d project=china -d spider=china
#project=工程名
#spider=项目名称
然后查看网页127.0.0.1:6800
图片.png
点击Jobs
图片.png
这边就是我们爬虫运行的状态以及日志。
网友评论