基于Zookeeper实现分布式爬虫监控

作者: 互联网高级架构师 | 来源:发表于2023-02-03 13:51 被阅读0次

基于Zookeeper实现分布式爬虫监控
分布式锁实现
分布式锁的几种实现方式（Java ）
【三】Zookeeper应用-基于ZooKeeper的分布式Se
分布式锁的实现-Redisson
问题3:如何实现一个Zookeeper的分布式锁
基于 ZooKeeper 实现爬虫集群的监控
基于Zookeeper的分布式共享锁
画分布式锁之"通文馆圣主"Curator的&
Redis 如何实现分布式锁？ZooKeeper 如何实现分布式

一、Zookeeper是什么啊？

我们来看一下，Zookeeper的定义：zookeeper是一个分布式的开源的协调服务框架,服务于分布式应用。它暴露了一系列的原语操作服务,因此分布式应用能够基于这些服务,构建出更高级别的服务,比如同步,配置管理,分组和命名服务。zookeeper设计上易于编码,数据模型构建在我们熟悉的树形结构目录风格的文件系统中。zookeeper运行在Java中,同时支持Java和C 语言。

二、那么Zookeeper的基本架构与工作原理是啥样的呢？

Zookeeper 服务自身组成一个集群（2n+1个服务节点最多允许n个失效）。Zookeeper 服务有两个角色：一个是主节点（Leader），负责投票的发起和决议，更新系统状态；另一种是从节点（Follower），用于接收客户端请求并向客户端返回结果，在选主过程（即选择主节点的过程）中参与投票。主节点失效后，会在从节点中重新选举新的主节点。

zookeeper的数据结构与linux文件系统很类似，与Linux中的文件系统路径不同，Zookeeper中的路径必须是绝对路径，而且每条路径只有唯一的一种表示方式（/app1/p_3）。

三、如何构建Zookeeper集群？

安装Zookeeper的预备工作：

Linux 系统3节点准备
配置主机名与IP地址映射
配置时钟同步
集群SSH密码登录
集群脚本开发
JDK安装

我们先来看看Zookeeper的分布式集群如何搭建：

下载解压
修改配置文件
同步Zookeeper安装目录
创建数据和日志目录
配置Zookeeper节点服务编号
Zookeeper集群服务启停

3.1 下载并解压zookeeper

到官网（地址：http://Zookeeper.apache.org/releases.html# download）下载Zookeeper稳定版本的zookeeper-3.4.6.tar.gz安装包，然后上传至hadoop01 节点的/home/hadoop/app目录下并解压，具体操作如下所示。

#解压Zookeeper

[hadoop@hadoop01 app]$ tar -zxvf zookeeper-3.4.6.tar.gz

#创建Zookeeper软连接

[hadoop@hadoop01 app]$ ln -s zookeeper-3.4.6 zookeeper

3.2 修改zoo.cfg配置文件

在运行 Zookeeper 服务之前，需要新建一个配置文件。这个配置文件习惯上命名为zoo.cfg，并保存在conf子目录中，其核心内容如下所示。

[hadoop@hadoop01 app]$ cd zookeeper

[hadoop@hadoop01 zookeeper]$ cd conf/

[hadoop@hadoop01 conf]$ ls

configuration.xsl  log4j.properties  zoo.cfg  zoo_sample.cfg

[hadoop@hadoop01 conf]$ vi zoo.cfg

#数据目录需要提前创建

dataDir=/home/hadoop/data/zookeeper/zkdata

#日志目录需要提前创建

dataLogDir=/home/hadoop/data/zookeeper/zkdatalog

#访问端口号

clientPort=2181

#server.每个节点服务编号=服务器ip地址:集群通信端口:选举端口

server.1=hadoop01:2888:3888

server.2=hadoop02:2888:3888

server.3=hadoop03:2888:3888

3.3 同步zookeeper安装目录

使用scp命令将hadoop01节点的Zookeeper安装目录，整体同步到集群的hadoop02和hadoop03节点，具体操作如下所示。

[hadoop@hadoop01 app]$scp -r zookeeper-3.4.6  hadoop@hadoop02:/home/hadoop/app/

[hadoop@hadoop01 app]$scp -r zookeeper-3.4.6  hadoop@hadoop03:/home/hadoop/app/

然后分别在hadoop02和hadoop03节点上创建Zookeeper软连接，具体操作如下所示。

[hadoop@hadoop02 app]$ln -s zookeeper-3.4.6 zookeeper

[hadoop@hadoop03 app]$ ln -s zookeeper-3.4.6 zookeeper

3.4 创建数据和日志目录

在集群各个节点创建Zookeeper数据目录和日志目录，需要跟zoo.cfg配置文件保持一致，具体操作如下所示。

#创建Zookeeper数据目录

[hadoop@hadoop01 app]$mkdir -p /home/hadoop/data/zookeeper/zkdata

[hadoop@hadoop02 app]$mkdir -p /home/hadoop/data/zookeeper/zkdata

[hadoop@hadoop03 app]$mkdir -p /home/hadoop/data/zookeeper/zkdata

#创建Zookeeper日志目录

[hadoop@hadoop01 app] mkdir -p /home/hadoop/data/zookeeper/zkdatalog

[hadoop@hadoop02 app] mkdir -p /home/hadoop/data/zookeeper/zkdatalog

[hadoop@hadoop03 app] mkdir -p /home/hadoop/data/zookeeper/zkdatalog

3.5 创建各节点服务编号

分别在Zookeeper集群各个节点，进入/home/hadoop/data/zookeeper/zkdata目录，创建文件myid，然后分别输入服务编号，具体操作如下所示：

#hadoop01节点

[hadoop@hadoop01 zkdata]$ touch myid

[hadoop@hadoop01 zkdata]$ echo 1> myid

#hadoop02节点

[hadoop@hadoop02 zkdata]$ touch myid

[hadoop@hadoop02 zkdata]$ echo 2> myid

#hadoop03节点

[hadoop@hadoop03 zkdata]$ touch myid

[hadoop@hadoop03 zkdata]$ echo 3> myid

注意：每个节点服务编号的值是一个整形数字且不能重复

3.6 启动Zookeeper集群服务

在集群各个节点分别进入Zookeeper安装目录，然后使用如下命令启动Zookeeper服务。

[hadoop@hadoop01 zookeeper]$ bin/zkServer.sh start

[hadoop@hadoop02 zookeeper]$ bin/zkServer.sh start

[hadoop@hadoop03 zookeeper]$ bin/zkServer.sh start

Zookeeper集群启动一会之后，通过如下命令查看Zookeeper集群状态。

[hadoop@hadoop01 zookeeper]$ bin/zkServer.sh status

[hadoop@hadoop02 zookeeper]$ bin/zkServer.sh status

[hadoop@hadoop03 zookeeper]$ bin/zkServer.sh status
复制代码

如果在Zookeeper集群中，其中一个节点为leader领导者，另外两个节点是follower跟随者，说明Zookeeper集群安装部署成功。

四、简单了解一下Zookeeper Shell的操作

客户端连接zk服务
[hadoop@hadoop1 zookeeper]$ bin/zkCli.sh  -server localhost:2181
查看znode根目录结构
[zk: localhost:2181(CONNECTED) 1] ls  /
创建znode节点
[zk: localhost:2181(CONNECTED) 2] create /test helloworld
查看znode节点
[zk: localhost:2181(CONNECTED) 3] get /test
修改znode节点
[zk: localhost:2181(CONNECTED) 4] set /test zookeeper
[zk: localhost:2181(CONNECTED) 5] get /test
删除znode节点
[zk: localhost:2181(CONNECTED) 6] delete /test

五、本文重点来啦-->基于Zookeeper实现分布式爬虫监控

当我们需要采集一个网上书店的数据，为了提高爬虫效率，现在利用集群多节点并行爬取数据。由于使用集群多节点并行爬虫，难免会出现某些爬虫应用挂掉的状况，为了及时掌握集群节点爬虫应用是否正常运行，现在要求对集群的各爬虫应用进行监控。为了实现对集群各节点爬虫应用的监控，可以利用Zookeeper的监听机制来实现。首先通过Java开发一个监视器来监听Zookeeper的/spider持久节点，然后通过Java实现网上书店的爬虫应用，该应用会获取本地IP地址作为临时节点注册到Zookeeper的/spider节点，最后当集群各节点爬虫应用上线或者下线时都会触发监视器，从而可以精确掌握各爬虫应用的健康状况。

首先我们先引入项目依赖

<dependency>
  <groupId>org.apache.curator</groupId>
  <artifactId>curator-framework</artifactId>
  <version>2.12.0</version>
</dependency>
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.7.2</version>
</dependency>
<dependency>
  <groupId>org.apache.httpcomponents</groupId>
  <artifactId>httpclient</artifactId>
  <version>4.4</version>
</dependency>
<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-lang3</artifactId>
  <version>3.3.1</version>
</dependency>

在这里，可能会出现

Error: Could not find or load main class com.bigdata.zookeeper.SpiderWatcher

不用慌，我们切换打包插件即可，打包插件如下：

<build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>2.4.3</version>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
            <configuration>
              <transformers>
                <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                  <mainClass>com.bigdata.zookeeper.StartSpider</mainClass>
                </transformer>
              </transformers>
            </configuration>
          </execution>
        </executions>
      </plugin>
    </plugins>
  </build>
</project>

爬虫代码：

一些爬虫效果be like：

接下来，对项目进行打包和运行

项目编译打包
命令：mvn clean package

启动Zookeeper集群
启动脚本：bin/zkServer.sh start

启动爬虫监控应用
启动命令：java -cp bigdata-1.0-SNAPSHOT.jar 包名+监控类名

启动爬虫应用
启动命令：java -cp bigdata-1.0-SNAPSHOT.jar 包名+爬虫类名

查看爬虫应用节点上下线

监视程序

拷贝包导其他节点

爬虫效果：

作者：陈惜时
链接：https://juejin.cn/post/7195857732846305341
来源：稀土掘金

基于Zookeeper实现分布式爬虫监控
一、Zookeeper是什么啊？我们来看一下，Zookeeper的定义：zookeeper是一个分布式的开源的协...
分布式锁实现
基于数据库实现分布式锁基于缓存（redis，memcached）实现分布式锁基于Zookeeper实现分布式锁 s...
分布式锁的几种实现方式（Java ）
基于Zookeeper实现分布式锁基于zookeeper临时有序节点可以实现的分布式锁。大致思想即为：每个客户端...
【三】Zookeeper应用-基于ZooKeeper的分布式Se
【Zookeeper应用】基于ZooKeeper的分布式Session实现 1 为什么使用ZooKeeper 目...
分布式锁的实现-Redisson
常见3种分布式的实现比较基于数据库实现分布式锁基于缓存实现分布式锁（redis,mc）基于Zookeeper...
问题3:如何实现一个Zookeeper的分布式锁
参考来源基于zookeeper实现分布式锁 Distributed Lock using Zookeeper 分...
基于 ZooKeeper 实现爬虫集群的监控
ZooKeeper ZooKeeper 是一个开源的分布式协调服务，ZooKeeper框架最初是在“Yahoo!"...
基于Zookeeper的分布式共享锁
基于Zookeeper的分布式共享锁实现原理基于Zookeeper、Lock实现的分布共享式锁构造初始化Zo...
画分布式锁之"通文馆圣主"Curator的&
上文，我们已经基于图文分析了zookeeper实现分布式锁的基本原理，【画分布式锁之Zookeeper实现机...
Redis 如何实现分布式锁？ZooKeeper 如何实现分布式
Redis 如何实现分布式锁？ZooKeeper 如何实现分布式锁？比较二者优劣？分布式锁的三种实现：基于数据...