Flume 运维 - Tips

作者: 大数据之心 | 来源:发表于2017-05-10 18:08 被阅读145次

简单粗暴,直入主题,最近数仓 Streaming ETL 强依赖 Flume 作为异构同步手段,开一个帖子专门记录踩过的坑,以及如何爬上来。

Tips:

  • Flume 1.6 和 1.7 是目前最流行的版本,Kafka Client 从 0.8.X 升级到了 0.10.X;
  • Flume 1.6 和 1.7 配置项也有很大的修改,举个例子,针对 Kafka Sink 的配置,然后配置错误了也不会报错,直接的体现是 channel 被打爆:
# 1.6
a1.sinks.k1.topic = mytopic
a1.sinks.k1.brokerList = localhost:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 20
# 1.7
a1.sinks.k1.kafka.topic = mytopic
a1.sinks.k1.kafka.bootstrap.servers = localhost:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
  • 即使配置文件写错了,也没有一个很好的报错提示,语义很模糊,加大了排除问题的难度;
  • Kafka to Kafka 的场景,在 1.6 版本下,如果源 topic 和目的 topic 名称不一致,必须在 Kafka Sink 设置 ignoreTopicInHeader = true,达到同步的目的(说实话我没有调试成功,暂时搁置);

An optinal property called ignoreTopicInHeader is added for Kafka Sink. Its default value is false, so it is compatible with Flume 1.6.0. If you want to ignore topic in header and write events to the topic you specified in properties file, you can set ignoreTopicInHeader to true.
Besides, three optinal properties topicHeader, keyHeader, timestampHeader are added for Kafka Source. They are similar to fileHeader and basenameHeader for Spooling Directory Source. Their default value are true, so they are compatible with Flume 1.6.0. If you do not want to add headers storing topic, key or timestamp, you can set them to false. It is also helpful for performance of Kafka Source.

相关文章

  • Flume 运维 - Tips

    简单粗暴,直入主题,最近数仓 Streaming ETL 强依赖 Flume 作为异构同步手段,开一个帖子专门记录...

  • 大数据系列之Flume+kafka 整合

    关于Flume 的 一些核心概念: 组件名称 功能介绍 Agent代理 使用JVM 运行Flume。每台机器运...

  • Linux运维发展与学习路线笔记

    1.云计算运维、大数据运维、运维开发、应用运维、系统运维架构师、Linux系统运维。 2.20-35K:两年以上L...

  • 01_1_Linux云计算岗位的发展前景

    Linux运维岗位:Linux系统运维工程师、应用运维工程师、运维开发工程师、云计算运维工程师、大数据运维工程师、...

  • 也谈运维

    运维分三个层次:设备运维、架构运维和业务运维。设备运维是指维护操作系统和网络环境,例如保持系统更新;架构运维是指维...

  • 运维

    1.运维是什么? 运维可以是什么?全栈?开发? 运维(Operation and maintenance)运维是一...

  • Hadoop相关文章索引(2)——Hadoop运维主题

    hadoop运维笔记1 Hadoop集群日常运维 Hadoop运维经验杂谈 Hadoop运维笔记 之 调整hdfs...

  • zabbix如何导出Excel电子表格运行报表

    运维报告的编写、巡检报告编制、运维资产统计、运维性能报告编写等均是运维人员的常态化工作之一。如何高效的编写运维报告...

  • 运维思索:运维规范如何生成?

    运维框架 运维思考:运维管理与运维自动化[http://mp.weixin.qq.com/s?__biz=MzA4...

  • Linux云计算岗位的发展前景笔记

    liunx岗位: liunx系统运维工程师、应用运维工程师,运维开发工程师,大数据运维工程师,云计算运维工程师,系...

网友评论

    本文标题:Flume 运维 - Tips

    本文链接:https://www.haomeiwen.com/subject/ehvgtxtx.html