美文网首页
flume入门二(监控日志实时采集新增)

flume入门二(监控日志实时采集新增)

作者: 南山小和尚 | 来源:发表于2019-03-10 00:36 被阅读0次

        我们的日志基本是从web服务中采集,那么flume有好的配置,接下来我将分别演示单台和多台聚合例子。

    一、单台flum

        对于实时的日志flume采集修改配置source为exec,sink目前测试只是模拟打印出来,对于真正的生产环境我们是可以配置成Hdfs或者kafka,分别用于以后离线计算以及实时流计算处理。对于sink发送至kafak我将在后面的内容中写出,至于配置文件位置和如何启动我就不说了,上一节内容已经说明,直接上配置即可:

    如上标注的文件是我们生产环境日志文件即可,此处我们可以在自己的文件夹上创建一个该文件进行模拟,然后我们来说明下下exec的配置,直接把官网的说明列出就一目了然:

    接下来启动flume,然后模拟输入命令,如下两个图分别是输入和flume打印出来的内容

    2)、多台

    应用场景说明:接下来要演示的是多台服务聚合的场景(看下图一幕了然),例如我们有两天web服务,我们分别配置了flume,但是这两天没有没有HDFS服务,我们如何把这两个服务保存到hdfs中?其实就是两天日志的通过配置sink,然后将日志发送到存在HDFS服务商flume服务中即可。

    好了,接下来我们就来演示上图的这种环境,我将用两天测试,用一台接收web服务的日志然后发送到另外一台flume中即可:

    第一台配置如下(接收web服务配置):注意我们的sink的type要配置成avro

    第二台配置(接收flume的配置):注意我们的source的type要配置成avro

    如上配置好启动即可,然后在第一台服务模拟数据,第二台的日志就会打印出来。此处与单台模拟操作相同就不在展示。

    总结:flume的核心其实就是sources、Channels、sinks

                配置的时候我们基本按照这四部走:1:配置source,2:配置Channel 3:配置Sink 4:把以上三个联系起来即可

                如果我们忘记命令可以在flume中直接输入flume-ng即可查看如下图:

        如何解决我们的数据从其他server移动到hadoop中?

            1)、shell脚本cp到hadoop中 hdfs -put,但是太麻烦不能及时

            2)、flume(比较好的选择)

        Flume的概述:flume是具有分布式、高效可用的,收集、聚合大量的日志文件的框架,并且可靠、扩展性强

        

    相关文章

      网友评论

          本文标题:flume入门二(监控日志实时采集新增)

          本文链接:https://www.haomeiwen.com/subject/zeyypqtx.html