部署NiFi Poc环境

作者: 一个老冯 | 来源:发表于2020-11-16 13:16 被阅读0次

    1.NiFi简介

    Apache Nifi是一个易用、强大、可靠的数据处理和分发系统。

    主要功能:数据流程管理,设计数据流程、执行数据流程、监控数据流程执行。

    一个数据流程是一个有向图包含:数据源节点、数据转化和协调节点、以及数据输出节点。

    在NiFi中数据流程图中的节点被称为Processor,流程图中的边称为connection,边是有方向的,在流程图中流动的数据称为FlowFile。FlowFile被数据源类型的Processor创建,沿着connection流动,被数据转化类型的Processor被转化(拆开、合并、转化为新的FlowFile、被复制或者被遗弃),被协调类型Processor调整流向,最后被Sink类型的Processor发送到外部节点。

    NiFi在复杂的多系统企业环境中能够发挥非常大的作用。

    2. 环境要求

    Apache NiFi比较不挑操作系统,只要能安装JDK,能执行java命令就行。oracle jdk和open jdk都可,版本要求为8或11。安装好jdk执行javac看看装好没有。

    laofeng@192 ~ % javac --version
    javac 11.0.9
    

    如果部署Apache NiFi伪基群则需要预先安装Docker Desktop。

    docker_desktop.png

    3.单点

    Apache NiFi 安装也比较简单,只要下载一个二进制包,解压了就可以执行。二进制包有两种:tag.gz、zip,建议Mac、linux用户下载tar.gz,windows用户下载zip包。Apache NiFi下载地址:http://nifi.apache.org/download.html。如果下载速度没有达到数MB/秒,建议换一个速度快的镜像地址,毕竟安装包的size有1.5G。

    nifi下载.png

    解压后的目录结构如下:

    nifi目录.png

    启动nifi

    在linux和mac下使用bin/nifi.sh启动,windows下使用bin/nifi.bat。

    # 先执行一下试试,输出的是usage,可以看到启动、停止、执行、重启、状态、dump、诊断、安装(为系统服务)、无状态(?什么意思)
    laofeng@192 nifi-1.12.1 % bin/nifi.sh
    
    Usage nifi {start|stop|run|restart|status|dump|diagnostics|install|stateless}
    # 执行启动命令,删除了“java home”和“nifi home”,启动配置文件为“conf/bootstrap.conf”
    laofeng@192 nifi-1.12.1 % bin/nifi.sh start
    
    Java home: /Library/Java/JavaVirtualMachines/jdk-11.0.9.jdk/Contents/Home
    NiFi home: /Users/laofeng/Downloads/apps/nifi-1.12.1
    
    Bootstrap Config File: /Users/laofeng/Downloads/apps/nifi-1.12.1/conf/bootstrap.conf
    
    WARNING: An illegal reflective access operation has occurred
    WARNING: Illegal reflective access by org.apache.nifi.bootstrap.util.OSUtils (file:/Users/laofeng/Downloads/apps/nifi-1.12.1/lib/bootstrap/nifi-bootstrap-1.12.1.jar) to method java.lang.ProcessImpl.pid()
    WARNING: Please consider reporting this to the maintainers of org.apache.nifi.bootstrap.util.OSUtils
    WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
    WARNING: All illegal access operations will be denied in a future release
    # 查看一下状态,输出了监听端口号和进程id “listening to Bootstrap on port 65173, PID=16224”
    laofeng@192 nifi-1.12.1 % bin/nifi.sh status
    
    Java home: /Library/Java/JavaVirtualMachines/jdk-11.0.9.jdk/Contents/Home
    NiFi home: /Users/laofeng/Downloads/apps/nifi-1.12.1
    
    Bootstrap Config File: /Users/laofeng/Downloads/apps/nifi-1.12.1/conf/bootstrap.conf
    
    2020-11-15 20:40:05,575 INFO [main] org.apache.nifi.bootstrap.Command Apache NiFi is currently running, listening to Bootstrap on port 65173, PID=16224
    
    # 使用jps命令,发现了“NIFI”和“RunNiFi”两个相关进程
    laofeng@192 nifi-1.12.1 % jps
    16224 NiFi
    16222 RunNiFi
    

    使用浏览器访问:http://127.0.0.1:8080/nifi,能看到如下界面,基本确认启动成功。

    nifi ui.png

    4.伪集群

    集群架构

    NiFi Cluster HTTP Access

    NiFi Cluster采用无leader模式,即在部署时所有集群节点都是相同的配置没有主节点和从节点的区别。每个节点都有同样的数据流程定义,执行相同的任务,但处理不同的数据。 NiFi使用zooKeeper做为协调服务。集群启动时,一个节点被选出做为协调节点,其他节点向它发送心跳信息和状态报告。当新节点选择加入集群时,新节点必须首先连接到集群协调节点,以下载最新的数据流程。如果集群协调节点确定允许节点加入,则当前数据流程将提供给该节点,并且该节点能够加入集群,但新节点的数据流程副本与集群协调节点提供的副本必须匹配。如果新节点的数据流程配置版本与集群协调节点的版本不同,则新节点将被拒绝加入集群。

    术语

    • Coordinator(协调器):NiFi集群协调器是NiFi集群中的节点,它负责执行任务来管理集群中允许哪些节点,并向新加入的节点提供最新的流。当数据流管理器管理集群中的数据流时,它们能够通过集群中任何节点的用户界面来进行管理。然后,所做的任何更改都将复制到群集中的所有节点。
    • Nodes(节点):每个集群由一个或多个节点组成。这些节点进行实际的数据处理。
    • Primary Node(主节点): 每个集群都有一个主节点。在这个节点上可以运行“独立处理器”。ZooKeeper用于选举主节点。如果该节点由于任何原因与集群断开连接,将自动选举一个新的主节点。用户可以通过查看用户界面的集群管理页面来确定当前哪个节点是主节点。
    • Isolated Processors(独立处理器):在NiFi集群中,相同的数据流程在所有节点上运行。因此,数据流程中的每个组件都在所有节点上运行。然而,在某些情况下,DFM可能不希望一些处理器运行在所有节点上。最常见的情况是使用处理器与外部服务通信时使用的协议限制。例如,GetSFTP处理器从远程目录中提取。如果GetSFTP处理器在集群中的所有节点上运行,并同时尝试从同一个远程目录进行拉取,则可能存在竞争问题。因此,DFM可以将主节点上的GetSFTP配置为独立运行,这意味着它只在主节点上运行。通过正确的数据流配置,它可以拉入数据并在集群中的其余节点之间进行负载平衡。请注意,虽然这个特性存在,但是简单地使用一个独立的NiFi实例来拉取数据并将其提供给集群也是非常常见的。这取决于可用的资源以及管理员决定如何配置集群。
    • Heartbeats(心跳):节点通过“Heartbeats”将它们的运行状况和状态传递给当前的集群协调器,它让协调器知道它们仍然连接到集群并且工作正常。默认情况下,节点每5秒发出一次心跳,如果集群协调器在40秒(=5秒*8)内没有接收到来自节点的心跳信号,则会由于“缺少心跳”而断开节点的连接。这两个参数可以在node.properties文件中配置。集群协调器断开节点连接的原因是因为协调器需要确保集群中的每个节点都是同步的,并且如果没有定期接收到某个节点的消息,那么协调器就不能确定它仍然与集群的其余部分保持同步。如果在40秒后,节点确实发送了一个新的心跳信号,协调器将自动请求节点重新加入集群,以包括对节点流的重新验证。在用户界面中向DFM报告由于缺少心跳而导致的断开连接和接收到心跳后的重新连接。

    基于docker集群

    这里实现伪集群的方式是:使用docker-compose启动多个nifi的container,组成一个运行在docker中的NiFi cluster。忽略Docker Destop的安装过程。

    docker-compose文件

    version: "3"
    services:
      zookeeper:
        hostname: zookeeper
        container_name: zookeeper
        image: 'bitnami/zookeeper:latest'
        environment:
          - ALLOW_ANONYMOUS_LOGIN=yes
      nifi:
        image: "apache/nifi:1.12.1"
        ports:
          - 8080 # Unsecured HTTP Web Port
        environment:
          - NIFI_WEB_HTTP_PORT=8080
          - NIFI_CLUSTER_IS_NODE=true
          - NIFI_CLUSTER_NODE_PROTOCOL_PORT=8082
          - NIFI_ZK_CONNECT_STRING=zookeeper:2181
          - NIFI_ELECTION_MAX_WAIT=1 min
          - NIFI_HOME=/opt/nifi/nifi-current
          - NIFI_LOG_DIR=/opt/nifi/nifi-current/logs
          - NIFI_TOOLKIT_HOME=/opt/nifi/nifi-toolkit-current
          - NIFI_PID_DIR=/opt/nifi/nifi-current/run
          - NIFI_BASE_DIR=/opt/nifi
    

    将以上代码保存为“docker-compose.yml”。由yml文件细节看,使用了两个镜像:bitnami/zookeeper:latest和apache/nifi:1.12.1。

    "apache/nifi:1.12.1"镜像使用的是jdk版本为“openjdk8”

    创建并启动集群

    注意执行命令的目录和保存“docker-compose.yml”必须是同一个目录。

    #启动三个节点的NiFi集群,第一次启动需要下载镜像,要等一段时间。
    # 第二次启会非常快
    laofeng@192 nifi-1.12.1 % docker-compose up --scale nifi=3 -d
    #开始下载镜像
    Pulling zookeeper (bitnami/zookeeper:latest)...
    latest: Pulling from bitnami/zookeeper
    58212c1109c5: Pull complete
    081a2ae8dc51: Pull complete
    f5ff4112905d: Pull complete
    35864a4b7faf: Pull complete
    cdcc88215c01: Pull complete
    94a860965551: Pull complete
    7b37ce5d991a: Pull complete
    9b0fd0c439c8: Pull complete
    79ae9cc9ceef: Pull complete
    f587456f2eac: Pull complete
    215bcd582847: Pull complete
    c3bbf763f965: Pull complete
    96583be231d1: Pull complete
    Digest: sha256:0f278b73b82ec8910168f09343b8dc5405152482d2fac1f26473ffc12564fafa
    Status: Downloaded newer image for bitnami/zookeeper:latest
    Pulling nifi (apache/nifi:1.12.1)...
    1.12.1: Pulling from apache/nifi
    d6ff36c9ec48: Pulling fs layer
    d6ff36c9ec48: Pull complete
    c958d65b3090: Pull complete
    edaf0a6b092f: Pull complete
    ffba832277c8: Pull complete
    9687742a10f9: Pull complete
    438df03a4d78: Pull complete
    b428ea9845bb: Pull complete
    e97cefb1594a: Pull complete
    1ea915e95f07: Pull complete
    b988f1230121: Pull complete
    066b86f87d5a: Pull complete
    11325722f405: Pull complete
    Digest: sha256:bf7576ab7ad0bfe38c86be5baa47229d1644287984034dc9d5ff4801c5827115
    Status: Downloaded newer image for apache/nifi:1.12.1
    # 启动容器
    Creating nifi-1121_nifi_1 ... done
    Creating nifi-1121_nifi_2 ... done
    Creating nifi-1121_nifi_3 ... done
    Creating zookeeper        ... done
    # 至此启动完成
    

    使用docker ps命令查看容器运行状况

    laofeng@192 nifi-1.12.1 % docker ps
    CONTAINER ID        IMAGE                      COMMAND                  CREATED             STATUS              PORTS                                                    NAMES
    6b0974257ea3        apache/nifi:1.12.1         "../scripts/start.sh"    7 minutes ago       Up 7 minutes        8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32770->8080/tcp   nifi-1121_nifi_2
    19a9fbc4ec11        bitnami/zookeeper:latest   "/opt/bitnami/script…"   7 minutes ago       Up 7 minutes        2181/tcp, 2888/tcp, 3888/tcp, 8080/tcp                   zookeeper
    058e826876e0        apache/nifi:1.12.1         "../scripts/start.sh"    7 minutes ago       Up 7 minutes        8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32769->8080/tcp   nifi-1121_nifi_3
    c4c02b6415eb        apache/nifi:1.12.1         "../scripts/start.sh"    7 minutes ago       Up 7 minutes        8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32768->8080/tcp   nifi-1121_nifi_1
    

    根据PS命令的输出,看到有四个活跃容器:zookeeper、nifi-1121_nifi_1、nifi-1121_nifi_2、nifi-1121_nifi_3。

    有三个端口映射到了宿主机:0.0.0.0:32770->8080/tcp(nifi-1121_nifi_2),0.0.0.0:32769->8080/tcp(nifi-1121_nifi_3),0.0.0.0:32768->8080/tcp(nifi-1121_nifi_1)。

    nifi集群中每个节点都可做为WebUI的入口,使用浏览器访问其中一个节点http://localhost:32770/nifi.

    注意:nifi容器8080端口映射到主机的端口是随机,不同的宿主机,每次启动都不同,需要使用docker ps查看具体映射端口号。

    [图片上传失败...(image-49ad34-1605503611795)]

    查看集群状态

    1. 点击菜单
    nifi-cluster-0.png
    1. 弹出菜单
    截屏2020-11-16 上午10.42.08.png
    1. 集群状态
    image-20201116104724283.png

    NiFi 集群管理命令

    • cluster-summary, 集群概况
    • nifi get-node , 获取单个节点信息
    • nifi get-nodes,获取节点列表
    • nifi connect-node,连接到节点
    • nifi disconnect-node,退出节点
    • nifi offload-node,有集群中离线节点
    • nifi delete-node,由集群中删除节点
    #进入容器shell
    laofeng@192 nifi-1.12.1 % docker exec -it c4c02b6415eb /bin/bash
    nifi@c4c02b6415eb:/opt/nifi/nifi-current$ cd /opt/nifi/nifi-toolkit-1.12.1
    nifi@c4c02b6415eb:/opt/nifi/nifi-toolkit-1.12.1$ bin/cli.sh
               _     ___  _
     Apache   (_)  .' ..](_)   ,
     _ .--.   __  _| |_  __    )\
    [ `.-. | [  |'-| |-'[  |  /  \
    |  | | |  | |  | |   | | '    '
    [___||__][___][___] [___]',  ,'
                               `'
              CLI v1.12.1
    
    Type 'help' to see a list of available commands, use tab to auto-complete.
    
    
    Session loaded from /home/nifi/.nifi-cli.config
    #集群概况
    #> nifi cluster-summary                                                                                                                                                                                                               
    Total node count: 3
    Connected node count: 3
    Clustered: true
    Connected to cluster: true
    # 获取节点列表
    #> nifi get-nodes
    
    #   Node ID                                Node Address   API Port   Node Status   
    -   ------------------------------------   ------------   --------   -----------   
    0   8dc6c433-68bc-4839-b49b-a8d7710b7b34   c4c02b6415eb   8080       CONNECTED     
    1   a30e4804-7136-4f68-a66b-f5f3b764d7f5   6b0974257ea3   8080       CONNECTED     
    2   184fa9f3-0595-4ab7-b07c-ddfd0b011956   058e826876e0   8080       CONNECTED 
    # 返回一个节点的状态,与节点列表命令相比并没有额外的信息
    #> nifi get-node --nifiNodeId 8dc6c433-68bc-4839-b49b-a8d7710b7b34                                                                                                                                                      
    Node ID: 8dc6c433-68bc-4839-b49b-a8d7710b7b34
    Node Address: c4c02b6415eb
    API Port: 8080
    Node Status:CONNECTED~  
    

    停止docker集群

    使用docker-compose stop命令可以停止构成nifi的集群容器运行,但是容器会保留且处于不活跃的状态,之后可以随时使用docker-compose start命令将集群恢复运行。

    必须在docker-compose.yml文件路径下,执行命令。

    1. 停止

      laofeng@192 nifi-1.12.1 % docker-compose stop
      Stopping nifi-1121_nifi_2 ... done
      Stopping zookeeper        ... done
      Stopping nifi-1121_nifi_3 ... done
      Stopping nifi-1121_nifi_1 ... done
      
    2. 查看容器

      # 使用 docker ps,已经没有活跃容器
      laofeng@192 nifi-1.12.1 % docker ps
      CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
      # 查看所有容器,包括停止的容器,发现nifi集群的四个容器还在。
      laofeng@192 nifi-1.12.1 % docker ps -a
      CONTAINER ID        IMAGE                        COMMAND                  CREATED             STATUS                       PORTS                            NAMES
      6b0974257ea3        apache/nifi:1.12.1           "../scripts/start.sh"    About an hour ago   Exited (137) 5 minutes ago                                    nifi-1121_nifi_2
      19a9fbc4ec11        bitnami/zookeeper:latest     "/opt/bitnami/script…"   About an hour ago   Exited (143) 5 minutes ago                                    zookeeper
      058e826876e0        apache/nifi:1.12.1           "../scripts/start.sh"    About an hour ago   Exited (137) 5 minutes ago                                    nifi-1121_nifi_3
      c4c02b6415eb        apache/nifi:1.12.1           "../scripts/start.sh"    About an hour ago   Exited (137) 5 minutes ago                                    nifi-1121_nifi_1
      
    3. 恢复NiFi级群

      # 执行docker-compose start,因为不需要创建容器和虚拟网络,启动速度比较快
      laofeng@192 nifi-1.12.1 % docker-compose start
      Starting zookeeper ... done
      Starting nifi      ... done
      laofeng@192 nifi-1.12.1 % docker ps 
      CONTAINER ID        IMAGE                      COMMAND                  CREATED             STATUS              PORTS                                                    NAMES
      6b0974257ea3        apache/nifi:1.12.1         "../scripts/start.sh"    About an hour ago   Up 12 seconds       8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32771->8080/tcp   nifi-1121_nifi_2
      19a9fbc4ec11        bitnami/zookeeper:latest   "/opt/bitnami/script…"   About an hour ago   Up 12 seconds       2181/tcp, 2888/tcp, 3888/tcp, 8080/tcp                   zookeeper
      058e826876e0        apache/nifi:1.12.1         "../scripts/start.sh"    About an hour ago   Up 10 seconds       8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32772->8080/tcp   nifi-1121_nifi_3
      c4c02b6415eb        apache/nifi:1.12.1         "../scripts/start.sh"    About an hour ago   Up 9 seconds        8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32773->8080/tcp   nifi-1121_nifi_1
      
      

    销毁集群

    停止nifi集群的运行并删除容器,删除虚拟网络。

    laofeng@192 nifi-1.12.1 % docker-compose down
    Stopping nifi-1121_nifi_2 ... done
    Stopping zookeeper        ... done
    Stopping nifi-1121_nifi_3 ... done
    Stopping nifi-1121_nifi_1 ... done
    Removing nifi-1121_nifi_2 ... done
    Removing zookeeper        ... done
    Removing nifi-1121_nifi_3 ... done
    Removing nifi-1121_nifi_1 ... done
    Removing network nifi-1121_default
    

    5.总结

    本文简介了如何创建Apache NiFi的POC环境,包括单点NiFi和伪集群环境。在此基础上就以进一步学习并验证NiFi相关的知识了。

    相关文章

      网友评论

        本文标题:部署NiFi Poc环境

        本文链接:https://www.haomeiwen.com/subject/lggabktx.html