美文网首页
误操作引起的Logstash重复收集

误操作引起的Logstash重复收集

作者: 只是肿态度 | 来源:发表于2019-11-28 15:09 被阅读0次

    当需要做一个日志系统时,可能第一时间会想到ELK全家桶。
    ELK分别表示:Elasticsearch , Logstash, Kibana 。他们组成了一套完整的日志系统的解决方案,方便我们使用。

    • Logstash 对各个服务的日志进行采集、过滤、推送。
    • Elasticsearch 存储Logstash传送的结构化数据,提供给Kibana。
    • Kibana 提供用户UIweb页面进行,数据展示和分析形成图表等

    在使用Logstash进行收集的时候,仅仅需要简单的一个配置文件就可以启动一个logstash-agent来进行日志收集。

    input {
            file {
                    type => "test"
                    path => ["/home/hadoop/hao.zhang/logstashTest/1.txt"]
                    sincedb_path => "/home/hadoop/elk/logstash-agent/conf/datafall/test_sincedb"
            }
    }
    output{
         stdout {
       }
    }
    

    上述示例简单的从某个文件目录下收集日志打印到控制台。

    然后我们启动这个logstash-agent:bin/logstash -f conf/datafall/test.config

    往日志文件push数据:
    echo "hello world" >> 1.txt

    就可以看到控制输出:

    172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent]$ bin/logstash  -f conf/datafall/test.config
    Settings: Default pipeline workers: 40
    Pipeline main started
    2019-05-07T12:17:37.113Z sz-pg-dm-it-001.tendcloud.com hello world
    
    

    到此时是正确的一个流程。

    误操作开始了:

    但是我们以vim命令进入日志文件的时候,在文件末尾追加一个数据happy,此时控制台会输出:

    [172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent]$ bin/logstash  -f conf/datafall/test.config
    Settings: Default pipeline workers: 40
    Pipeline main started
    2019-05-07T12:17:37.113Z sz-pg-dm-it-001.tendcloud.com hello world
    2019-05-07T12:22:58.313Z sz-pg-dm-it-001.tendcloud.com hello world
    2019-05-07T12:22:58.314Z sz-pg-dm-it-001.tendcloud.com happy
    

    会发现logstash会从文件开始从新读取数据(此时就会造成数据的重复收集)。

    为什么会出现这种情况呢?

    Logstash有一个有趣的组件或功能叫做sincedb。该文件存储了当前logstash-agent收集的文件日志的offset。在前面test.config配置了sincedb的位置。
    如果不配置,它会默认在当前用户的根目录下创建一个.sincedb开头的文件

    sincedb的具体内容:

    [172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent/conf/datafall]$ cat test_sincedb
    4306020249 0 2052 12
    4306020236 0 2052 18
    第一列是收集日志文件的inode
    第二列、第三列是当前设备的一些值(先不用关心)。
    第四列是已收集文件日志的offset。
    
    每一行代表一个日志文件。
    
    

    看到上述内容,发现我们明明只收集了一个日志文件,为什么会又多出来一条记录呢。

    这就要追述到使用vim命令编辑文件并保存时。相当于会创建拥有全新inode的文件。

    此时logstash会发现一个文件名一样但是inode却不一样的文件。logstash还是会进行文件的收集工作。
    通过debug模式可以看到更详细的细节:

    each: new inode: /home/hadoop/hao.zhang/logstashTest/1.txt: old inode was ["4306020236", 0, 2052], new is ["4305990263", 0, 2052] {:level=>:debug, :file=>"filewatch/watch.rb", :line=>"245", :method=>"each"}
    :delete for /home/hadoop/hao.zhang/logstashTest/1.txt, closing file {:level=>:debug, :file=>"filewatch/observing_tail.rb", :line=>"52", :method=>"subscribe"}
    _open_file: /home/hadoop/hao.zhang/logstashTest/1.txt: opening {:level=>:debug, :file=>"filewatch/tail_base.rb", :line=>"86", :method=>"_open_file"}
    Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"hello world", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
    Pushing flush onto pipeline {:level=>:debug, :file=>"logstash/pipeline.rb", :line=>"458", :method=>"flush"}
    Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"happy", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
    Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"happy", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
    writing sincedb (delta since last write = 1557233399) {:level=>:debug, :file=>"filewatch/observing_tail.rb", :line=>"102", :method=>"observe_read_file"}
    filter received {:event=>{"message"=>"hello world", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.108Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
    filter received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.116Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
    filter received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.118Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
    output received {:event=>{"message"=>"hello world", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.108Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
    output received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.116Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
    output received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.118Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
    2019-05-07T12:49:59.108Z sz-pg-dm-it-001.tendcloud.com hello world
    2019-05-07T12:49:59.116Z sz-pg-dm-it-001.tendcloud.com happy
    2019-05-07T12:49:59.118Z sz-pg-dm-it-001.tendcloud.com happy
    Pushing flush onto pipeline {:level=>:debug, :file=>"logstash/pipeline.rb", :line=>"458", :method=>"flush"}
    

    从上述日志可以看出logstash会产生监控到一个新的inode文件,并且在原有sincedb文件中并没有这个inode记录,因此logstash会从头开始收集这个日志文件中的日志。

    当我们在使用logstash收集日志文件时,尽量不要用Vim、vi命令去打开日志文件,尽量使用cat、more这之类的。

    注:
    inode: 操作系统中的文件数据都储存在"块"中,当然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做inode,中文译名为"索引节点"
    inode包含文件的元信息,具体来说有以下内容:

    • 文件的字节数
    • 文件拥有者的User ID
    • 文件的Group ID
    • 文件的读、写、执行权限
    • 文件的时间戳,共有三个:ctime指inode上一次变动的时间,mtime指文件内容上一次变动的时间,atime指文件上一次打开的时间。
    • 链接数,即有多少文件名指向这个inode
    • 文件数据block的位置

    一般情况下,文件名和inode号码是"一一对应"关系,每个inode号码对应一个文件名。

    vim、vi:为什么在编辑的时候会产生一个新的inode: 在使用vim打开文件是,会把当前打开的文件放入buffer中(内存),然后进行操作。当我们保存时,相当于替换了原来的文件。所以会有个新的inode的文件产生。

    相关文章

      网友评论

          本文标题:误操作引起的Logstash重复收集

          本文链接:https://www.haomeiwen.com/subject/orsbwctx.html