美文网首页
【Flume1】Flume组成,Put事务,Take事务

【Flume1】Flume组成,Put事务,Take事务

作者: bigdata张凯翔 | 来源:发表于2021-01-24 11:42 被阅读0次

1.4.1 Flume组成,Put事务,Take事务

1)taildir source

(1)断点续传、多目录
(2)哪个Flume版本产生的?
Apache1.7、CDH1.6
(3)没有断点续传功能时怎么做的?
自定义
(4)taildir挂了怎么办?
不会丢数:断点续传
重复数据:
(5)怎么处理重复数据?
不处理:生产环境通常不处理,出现重复的概率比较低。处理会影响传输效率。
处理
自身:在taildirsource里面增加自定义事务,影响效率
找兄弟:下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开窗取窗口第一条、redis)

(6)taildir source 是否支持递归遍历文件夹读取文件?
不支持。 自定义 递归遍历文件夹 + 读取文件

2)file channel /memory channel/kafka channel

(1)File Channel

          数据存储于磁盘,优势:可靠性高;劣势:传输速度低
          默认容量:100万event
注意:FileChannel可以通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。
(2)Memory Channel
          数据存储于内存,优势:传输速度快;劣势:可靠性差
          默认容量:100个event
(3)Kafka Channel
          数据存储于Kafka,基于磁盘;
          优势:可靠性高;
          传输速度快 Kafka Channel 大于Memory Channel + Kafka Sink  原因省去了Sink阶段
(4)Kafka Channel哪个版本产生的?
          Flume1.6 版本产生=》并没有火;因为有bug
          topic-start 数据内容
          topic-event 数据内容    ture  和false 很遗憾,都不起作用。
          增加了额外清洗的工作量。
          Flume1.7解决了这个问题,开始火了。
(5)生产环境如何选择
          如果下一级是Kafka,优先选择Kafka Channel
          如果是金融、对钱要求准确的公司,选择File Channel 
          如果就是普通的日志,通常可以选择Memory Channel
          每天丢几百万数据   pb级   亿万富翁,掉1块钱会捡?
3)HDFS sink
(1)时间(1小时-2小时) or 大小128m、event个数(0禁止)
具体参数:
hdfs.rollInterval=3600,
hdfs.rollSize=134217728,
hdfs.rollCount =0
4)事务
    Source到Channel是Put事务
    Channel到Sink是Take事务

相关文章

  • 【Flume1】Flume组成,Put事务,Take事务

    1.4.1 Flume组成,Put事务,Take事务 1)taildir source (1)断点续传、多目录(2...

  • Flume-interview-questions

    一 Flume组成 1️⃣ 组成部分 1. Source 2. Channel 3. Sink 4. Put事务 ...

  • Flume系列3-Flume事务与传输流程

    一. Flume 事务 流程图: Put 事务流程:doPut:将批数据先写入临时缓冲区 putListdoCom...

  • Flume事务详解

    本文基于AvroSource,MemoryChannel,HDFSSink三个组件,对Flume数据传输的事务进行...

  • Flume(三)事务

    介绍 Flume是什么? Flume 是一个分布式、可靠且高可用的服务,用于有效地收集,聚合和移动大量日志数据。它...

  • 14)mysql事务

    什么是事务事务是数据库执行操作的最小单元事务可以有一个sql组成,也可以由多个sql组成组成事务的sql要么全执行...

  • 存储过程的测试

    存储过程 数据库脚本,由SQL语句组成的。 事务 事务是由DML操作(增删改操作的集合组成了事务)组成的。比如:张...

  • Hibernate中的事务与并发

    Hibernate中的事务与并发 事务相关的概念 什么是事务事务就是逻辑上的一组操作,组成事务的各个执行单元,操作...

  • SQL基础-事务和锁--源动力

    事务隔离级别 什么是事务? 事务(Transaction)由作为包含执行的单个命令或一组命令组成。 通过事务可以将...

  • 第七章 事务(上)

    7.1 认识事务7.1.1 概述事务可由一条非常简单的SQL语句组成,也可以由一组复杂的SQL语句组成。事务是访问...

网友评论

      本文标题:【Flume1】Flume组成,Put事务,Take事务

      本文链接:https://www.haomeiwen.com/subject/gtpycktx.html