美文网首页大数据协作框架
flume监控目录实时抽取数据

flume监控目录实时抽取数据

作者: 明明德撩码 | 来源:发表于2018-03-27 06:45 被阅读125次

    需求说明

    监控某个目录,若目录下产生了符合条件的文件,flume就抽取它到hdfs上,目录下可能有多种文件,比如当文件以log.tmp结尾时表示正在写。对log.tmp文件设置一个size值,一旦到达size,则会变成一个完整文件以.log结尾,则已经是完整文件(往往存在短暂),flume可以抽取其中数据, 以.log.completed结尾则表示flume已经抽取完数据,可以删除掉。

    业务分析

    从上述需求可知,我们是要监控某个日志目录,所以Flume Agent的Source选择【Sqooling Directory source】,这个source会监控spooling directory下的新文件,并且当新文件出现解析event,上传数据到目标地。当这个文件在channel中被完全读取后,便会被重命名表示完成。
    本案例中Flume Agent不再使用前面所说的MemoryChannel,而是使用FileChannel,将Source获取的数据缓存到本地文件系统,要比MemoryChannel更加安全。

    配置

    • agent


    • resoure


    • channels


    +sink


    • bind source sink to channels


    运行

    • 只处理非log结尾的文件


    • hdfs系统的文件


    相关文章

      网友评论

        本文标题:flume监控目录实时抽取数据

        本文链接:https://www.haomeiwen.com/subject/vdalcftx.html