Crawlab：初识分布式爬虫管理平台 Crawlab

Crawlab：初识分布式爬虫管理平台 Crawlab

作者: dex0423 | 来源:发表于2020-04-15 00:56 被阅读0次

Crawlab：在 Ubuntu 18.04 上使用 docke
Crawlab：初识分布式爬虫管理平台 Crawlab
分布式通用爬虫管理平台Crawlab
爬虫管理平台Crawlab部署指南
GO学习笔记(24) - 爬虫(1) - 入门
提交运行中docker的容器为镜像
爬虫管理平台Crawlab v0.3.1发布（Docker镜像优
Go开发的分布式爬虫框架 yispider
商城项目笔记
分布式爬虫概述

1. Crawlab 简介：

Crawlab（参见 https://crawlab.cn/），是一个基于Golang的分布式爬虫管理平台，支持多种编程语言以及多种爬虫框架；
Crawlab，目前可实现的功能包括定时任务、数据分析、可配置爬虫、SDK、消息通知、Scrapy 支持、Git 同步等；
Crawlab，主要解决的是大量爬虫管理困难的问题，例如需要监控上百个网站的参杂scrapy和selenium的项目不容易做到同时管理，而且命令行管理的成本非常高，还容易出错；
Crawlab，支持任何语言和任何框架，配合任务调度、任务监控，很容易做到对成规模的爬虫项目进行有效监控管理。

2. Crawlab 作者团队：

MarvinZhang89（参见 MarvinZhang89 的简书主页）；
Crawlab Team（参见 Crawlab Team 的Github主页）；

3. Crawlab Demo：

首页：

image.png
爬虫列表：

image.png
爬虫详情 - 概览：

image.png
任务详情 - 抓取结果：

image.png

4. Crawlab 架构设计：

Crawlab 架构图：

image.png
如上图，Crawlab由五大部分组成：
-- 主节点（Master Node）：负责任务派发、API、部署爬虫等；
-- 工作节点（Worker Node）：负责执行爬虫任务；
-- MongoDB数据库：存储节点、爬虫、任务等日常运行数据；
-- Redis数据库：储存任务消息队列、节点心跳等信息；
-- 前端客户端：Vue应用，负责前端交互和向后端请求数据；
执行爬虫任务的大致流程：
1. 前端向主节点发起请求，要求指定在某一工作节点执行任务；
2. 主节点收到该请求，并将任务数据推送到Redis任务队列中；
3. 工作节点持续监听Redis任务队列，并利用LPOP获取任务；
4. 工作节点执行任务，并将结果写回到储存数据库；
Crawlab 架构详解：
总的来说，可以将主节点看作是Crawlab整体架构的中控系统，理解为Crawlab的大脑；工作节点是实际干活的部分，是Crawlab的运动躯体；MongoDB和Redis是负责通信交流的，可以看作Crawlab的血液和神经网络。这些模块一起构成了一个完整、自洽、相互协作的系统。

如欲了解更多关于 Crawlab 的架构设计，请参考：爬虫平台Crawlab核心原理--分布式架构、分布式通用爬虫管理平台Crawlab等文章。

5. Crawlab 与其他框架比较

Crawlab使用起来很方便，也很通用，可以适用于几乎任何主流语言和框架。它还有一个精美的前端界面，让用户可以方便的管理和运行爬虫。

框架	类型	分布式	前端	依赖于Scrapyd
Crawlab	管理平台	Y	Y	N
Gerapy	管理平台	Y	Y	Y
SpiderKeeper	管理平台	Y	Y	Y
ScrapydWeb	管理平台	Y	Y	Y
Scrapyd	网络服务	Y	N	N/A

参考文章：https://www.jianshu.com/p/866faad66b48

相关文章

Crawlab：在 Ubuntu 18.04 上使用 docke
1. Crawlab 简介：参见： Crawlab：初识分布式爬虫管理平台 Crawlab； 2. 安装 doc...
Crawlab：初识分布式爬虫管理平台 Crawlab
1. Crawlab 简介： Crawlab（参见 https://crawlab.cn/），是一个基于Golan...
分布式通用爬虫管理平台Crawlab
Crawlab 基于Celery的爬虫分布式爬虫管理平台，支持多种编程语言以及多种爬虫框架。 Github: ht...
爬虫管理平台Crawlab部署指南
直接部署直接部署是之前没有Docker时的部署方式，相对于Docker部署来说有些繁琐。但了解如何直接部署可以帮...
GO学习笔记(24) - 爬虫(1) - 入门
目录爬虫的法律风险 - robots协议开源框架： Crawlab 开源框架： colly 爬虫相关知识（待补...
提交运行中docker的容器为镜像
本篇文章由一文多发平台ArtiPub[https://github.com/crawlab-team/artipu...
爬虫管理平台Crawlab v0.3.1发布（Docker镜像优
背景很多优秀的程序员和技术人员喜欢写技术文章和技术博客，通过这样的方式分享传播知识和经验，扩大自己的知名度和影响...
Go开发的分布式爬虫框架 yispider
yispider一款分布式爬虫平台，帮助你更好的管理和开发爬虫。内置一套爬虫定义规则（模版），可使用模版快速定义爬...
商城项目笔记
项目演示包括三个系统：商城前台系统、平台管理系统、商家管理系统项目目标初识分布式架构系统架构到时候会画图服...
分布式爬虫概述
分布式爬虫概述什么是分布式爬虫：多个爬虫分布在不同的服务器上，通过状态管理器进行统一调度，达到像URL去重等功...

网友评论

大数据爬虫Python AI Sql

本文标题：Crawlab：初识分布式爬虫管理平台 Crawlab

本文链接：https://www.haomeiwen.com/subject/dxwfvhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

热点阅读

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|Crawlab：初识分布式爬虫管理平台 Crawlab|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！