Gerapy介绍
-
Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取,抓取效率可以提高很多。
-
Scrapy-redis:虽然Scrapy框架是异步加多线程的,但是我们只能在一台主机上运行,爬取效率还是有限的,Scrapy-redis库为我们提供了Scrapy分布式的队列,调度器,去重等等功能,有了它,我们就可以将多台主机组合起来,共同完成一个爬取任务,抓取的效率又提高了。
-
Scrapyd:分布式爬虫完成之后,接下来就是代码部署,如果我们有很多主机,那就要逐个登录服务器进行部署,万一代码有所改动..........可以想象,这个过程是多么繁琐。Scrapyd是专门用来进行分布式部署的工具,它提供HTTP接口来帮助我们部署,启动,停止,删除爬虫程序,利用它我们可以很方便的完成Scrapy爬虫项目的部署。
-
Gerapy:是一个基于Scrapyd,Scrapyd API,Django,Vue.js搭建的分布式爬虫管理框架。简单点说,就是用上述的Scrapyd工具是在命令行进行操作,而Gerapy将命令行和图形界面进行了对接,我们只需要点击按钮就可完成部署,启动,停止,删除的操作。
一 : Greapy 安装
参考Greapy-https://github.com/Gerapy/Gerapy
通过pip安装Gerapy:
直接在系统环境下安装会安装一堆它需要的包如scrapy等过程比较慢。
安装完会在c盘用户下产生一个.virtualenvs文件
![](https://img.haomeiwen.com/i13103858/1bfe06b71a36bb93.png)
pip3安装gerapy
pip install gerapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
安装之后,您需要执行以下操作来运行Gerapy服务器:
如果成功安装了Gerapy,则可以使用command gerapy
。如果没有,请检查安装。
首先使用此命令初始化工作空间:
gerapy init #初始化
现在,您将获得一个名为的文件夹gerapy
。把你的scrapy项目放在该文件下的projects文件下
gerapy init <workspace> #这一步我没用
然后cd
到此文件夹,并运行以下命令来初始化数据库:
cd gerapy
gerapy migrate
接下来,您需要通过以下命令创建超级用户:
gerapy createsuperuser
然后,您可以通过以下命令运行服务器:
gerapy runserver
或者
pipenv run gerapy runserver
pipenv需要通过pip install pipenv进行安装
然后,您可以访问http:// localhost:8000使用
默认端口为8000
如果您想在公共场所运行Gerapy,只需像这样运行:
gerapy runserver 0.0.0.0:8000
然后它将在公共主机和端口8000上运行。
网友评论