Flume(1)

作者: 大飞飞_s8 | 来源:发表于2019-08-24 23:04 被阅读0次

    1、Hadoop的宗旨是处理大型数据集,假设是数据已经存储在HDFS中,或者随时能够批量复制到HDFS,但是许多系统不符合此假设

    2、flume的宗旨是向Hadoop批量导入基于事件的海量数据

    3、flume由三部分组成,source sink channel构成

    4、安装flume

    5、flume运行

    6、事务和可靠性

    6.1、flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事务传递

    6.2、上一节,spooling directory source 为文件的每一行创建一个事务,一旦事务中所有事件全部传递到channel且提交成功,那么source将该文件标记为完成,channel到sink类似

    6.3、本例中channel为file channel,具有持久性,事件被写入channel即使重启,数据不会丢失,flume还提供有memory channel,重启事件会丢失,优势在于吞吐量高

    6.3、每个事件到达sink至少一次,at least once,有可能重复到达,不论source还是sink,都有可能重复

    7、flume为了提高效率,尽量以事务为单位来批量处理事件,每个事务只需要写一次本地磁盘和调用一次fsync

    8、批量处理,例如spooling directory source 以100行作为一个批次读取,可以通过batchsize设置

    9、hadoop sink

    10、分区和拦截器

    10.1、一个flume事件被写入哪个分区是由事件的header的timestamp决定,默认情况下header中并没有timestamp,但是可以通过flume拦截器来添加,拦截器能够对事件流中的事件进行修改或者删除


    此回话周郑交战

    宋国政变第三年,衰退的周政府又受到致命一击。

    郑国国君姬掘突(郑武公)是骊山之役殉难再想姬友的位子,继承了父亲封国的国君,又继承了宰相位置,日夜不停东奔西跑,扩大领土

    姬掘突死后,儿子姬寐生,作风更加恶劣,老国王姬宜臼勉强能忍,但是他的孙儿姬林(周桓王)继位,年轻气盛,解除了姬寐生的中央职务,姬寐生立即报复姬林,割走了所有边界麦田的小麦。郑国与周王的大战就这样开始了。

    周王朝也走向了没落

    相关文章

      网友评论

          本文标题:Flume(1)

          本文链接:https://www.haomeiwen.com/subject/tuecectx.html