美文网首页大数据协作框架
flume介绍及基本配置

flume介绍及基本配置

作者: 明明德撩码 | 来源:发表于2018-03-21 17:32 被阅读19次

Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。Flume仅仅运行在linux环境下。
它是一个基于流式的数据的非常简单的(就写一个配置文件就可以)、灵活的架构,它也是一个健壮的、容错的。它用一个简单的扩展数据模型用于在线实时应用分析。它的简单表现为:写个source、channel、sink,之后一条命令就能操作成功了。
Flume、kafka实时进行数据收集,spark、storm实时去处理,impala实时去查询。

架构图

Events

  • Event是Flume数据传输的基本单元
  • Flume以事件的形式将数据从源头传送到最终的目的
  • Event由可选的header和载有数据的一个byte array构成
    载有的数据对flume是不透明的
    Header是容纳了key-value字符串对的无序集合,key在集合内是唯一的。
    Header可以在上下文路由中使用扩展

工作原理

source监控某个文件,将数据拿到,封装在一个event当中,并put/commit到chennel当中,chennel是一个队列,队列的优点是先进先出,放好后尾部一个个event出来,sink主动去从chennel当中去拉数据,sink再把数据写到某个地方,比如HDFS上面去。


系统要求

image.png

Flume 安装部署

-c或--conf 后面跟配置目录
-f或—-conf-file 后面跟具体的配置文件
-n或—-name 指定Agent的名称

Starting an agent

Flume Agent的配置被存储在一个本地配置文件,这是一个根据java属性文件格式的文本文件,在这个配置文件中,包括了对source、sink、channel的属性配置,和其相关联形成数据流的配置。
案例功能描述:
Flume Agent实时监控端口,收集数据,将其以日志的形式打印在控制台。

Flume Agent

Flume的开发就是编写配置文件,说白了就说Agent中Source、Channel和Sink的类型及属性。

相关文章

  • flume介绍及基本配置

    Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。Flum...

  • Flume学习系列(一)----总体介绍

    前言:本文是flume学习系列的开篇,主要介绍了flume的各种组件及相关配置。但是本篇文章并不打算从环境搭建开始...

  • flume初次體驗

    一.flume安裝及配置 安裝flume上传解压 2.修改配置文件 3.修改flume.conf文件 修改內容 啓...

  • Flume 入门

    一:Flume是什么: 二:特点: 三:Flume版本介绍 四:Flume NG基本架构 五:Flume NG核心...

  • flume安装及配置介绍(转载)

    Flume的下载方式: wget http://www.apache.org/dyn/closer.lua/flu...

  • flume配置介绍

    介绍 source: 搜集信息channel:传递信息sink:存储信息 概念 Flume支持用户建立多级流,多个...

  • 一口气搞定系列-Flume组件

    一、Flume总结 1.Linux环境Flume安装配置及使用[https://juejin.im/post/5c...

  • 基于Flume+Log4j+Kafka的日志采集架构方案

    本文将会介绍如何使用 Flume、log4j、Kafka进行规范的日志采集。 Flume 基本概念 Flume是一...

  • Hive基本介绍及配置

    1. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop...

  • 从一份配置清单详解Flume服务器配置

    一.概述: 这是一份我们机器使用的Flume的配置,今天我们以这份配置文件详细介绍下flume的使用方法。 这台机...

网友评论

    本文标题:flume介绍及基本配置

    本文链接:https://www.haomeiwen.com/subject/vcwgqftx.html