误操作引起的Logstash重复收集

作者: 只是肿态度 | 来源:发表于2019-11-28 15:09 被阅读0次

误操作引起的Logstash重复收集
Filebeat、Logstash、Kafka 三步曲
2.Logstash介绍
数据采集--Logstash(四)
logstash + influxdb监控nginx日志
山石Hillstone Logstash 配置流程
了解Logstash
Logstash
通过 Filebeat 收集 ubuntu 系统日志
通过 Filebeat 收集 ubuntu 系统日志

当需要做一个日志系统时，可能第一时间会想到ELK全家桶。
ELK分别表示：Elasticsearch , Logstash, Kibana 。他们组成了一套完整的日志系统的解决方案，方便我们使用。

Logstash 对各个服务的日志进行采集、过滤、推送。
Elasticsearch 存储Logstash传送的结构化数据，提供给Kibana。
Kibana 提供用户UIweb页面进行，数据展示和分析形成图表等

在使用Logstash进行收集的时候，仅仅需要简单的一个配置文件就可以启动一个logstash-agent来进行日志收集。

input {
        file {
                type => "test"
                path => ["/home/hadoop/hao.zhang/logstashTest/1.txt"]
                sincedb_path => "/home/hadoop/elk/logstash-agent/conf/datafall/test_sincedb"
        }
}
output{
     stdout {
   }
}

上述示例简单的从某个文件目录下收集日志打印到控制台。

然后我们启动这个logstash-agent:bin/logstash -f conf/datafall/test.config

往日志文件push数据：
echo "hello world" >> 1.txt

就可以看到控制输出：

172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent]$ bin/logstash  -f conf/datafall/test.config
Settings: Default pipeline workers: 40
Pipeline main started
2019-05-07T12:17:37.113Z sz-pg-dm-it-001.tendcloud.com hello world

到此时是正确的一个流程。

误操作开始了：

但是我们以vim命令进入日志文件的时候，在文件末尾追加一个数据happy，此时控制台会输出：

[172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent]$ bin/logstash  -f conf/datafall/test.config
Settings: Default pipeline workers: 40
Pipeline main started
2019-05-07T12:17:37.113Z sz-pg-dm-it-001.tendcloud.com hello world
2019-05-07T12:22:58.313Z sz-pg-dm-it-001.tendcloud.com hello world
2019-05-07T12:22:58.314Z sz-pg-dm-it-001.tendcloud.com happy

会发现logstash会从文件开始从新读取数据（此时就会造成数据的重复收集）。

为什么会出现这种情况呢？

Logstash有一个有趣的组件或功能叫做sincedb。该文件存储了当前logstash-agent收集的文件日志的offset。在前面test.config配置了sincedb的位置。
如果不配置，它会默认在当前用户的根目录下创建一个.sincedb开头的文件。

sincedb的具体内容：

[172.20.33.5:hadoop@sz-pg-dm-it-001:/home/hadoop/elk/logstash-agent/conf/datafall]$ cat test_sincedb
4306020249 0 2052 12
4306020236 0 2052 18
第一列是收集日志文件的inode
第二列、第三列是当前设备的一些值（先不用关心）。
第四列是已收集文件日志的offset。

每一行代表一个日志文件。

看到上述内容，发现我们明明只收集了一个日志文件，为什么会又多出来一条记录呢。

这就要追述到使用vim命令编辑文件并保存时。相当于会创建拥有全新inode的文件。

此时logstash会发现一个文件名一样但是inode却不一样的文件。logstash还是会进行文件的收集工作。
通过debug模式可以看到更详细的细节：

each: new inode: /home/hadoop/hao.zhang/logstashTest/1.txt: old inode was ["4306020236", 0, 2052], new is ["4305990263", 0, 2052] {:level=>:debug, :file=>"filewatch/watch.rb", :line=>"245", :method=>"each"}
:delete for /home/hadoop/hao.zhang/logstashTest/1.txt, closing file {:level=>:debug, :file=>"filewatch/observing_tail.rb", :line=>"52", :method=>"subscribe"}
_open_file: /home/hadoop/hao.zhang/logstashTest/1.txt: opening {:level=>:debug, :file=>"filewatch/tail_base.rb", :line=>"86", :method=>"_open_file"}
Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"hello world", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
Pushing flush onto pipeline {:level=>:debug, :file=>"logstash/pipeline.rb", :line=>"458", :method=>"flush"}
Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"happy", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
Received line {:path=>"/home/hadoop/hao.zhang/logstashTest/1.txt", :text=>"happy", :level=>:debug, :file=>"logstash/inputs/file.rb", :line=>"306", :method=>"log_line_received"}
writing sincedb (delta since last write = 1557233399) {:level=>:debug, :file=>"filewatch/observing_tail.rb", :line=>"102", :method=>"observe_read_file"}
filter received {:event=>{"message"=>"hello world", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.108Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
filter received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.116Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
filter received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.118Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"17", :method=>"filter_func"}
output received {:event=>{"message"=>"hello world", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.108Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
output received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.116Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
output received {:event=>{"message"=>"happy", "@version"=>"1", "@timestamp"=>"2019-05-07T12:49:59.118Z", "path"=>"/home/hadoop/hao.zhang/logstashTest/1.txt", "host"=>"sz-pg-dm-it-001.tendcloud.com", "type"=>"test"}, :level=>:debug, :file=>"(eval)", :line=>"22", :method=>"output_func"}
2019-05-07T12:49:59.108Z sz-pg-dm-it-001.tendcloud.com hello world
2019-05-07T12:49:59.116Z sz-pg-dm-it-001.tendcloud.com happy
2019-05-07T12:49:59.118Z sz-pg-dm-it-001.tendcloud.com happy
Pushing flush onto pipeline {:level=>:debug, :file=>"logstash/pipeline.rb", :line=>"458", :method=>"flush"}

从上述日志可以看出logstash会产生监控到一个新的inode文件，并且在原有sincedb文件中并没有这个inode记录，因此logstash会从头开始收集这个日志文件中的日志。

当我们在使用logstash收集日志文件时，尽量不要用Vim、vi命令去打开日志文件，尽量使用cat、more这之类的。

注：
inode: 操作系统中的文件数据都储存在"块"中，当然，我们还必须找到一个地方储存文件的元信息，比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做inode，中文译名为"索引节点"
inode包含文件的元信息，具体来说有以下内容：

文件的字节数
文件拥有者的User ID
文件的Group ID
文件的读、写、执行权限
文件的时间戳，共有三个：ctime指inode上一次变动的时间，mtime指文件内容上一次变动的时间，atime指文件上一次打开的时间。
链接数，即有多少文件名指向这个inode
文件数据block的位置

一般情况下，文件名和inode号码是"一一对应"关系，每个inode号码对应一个文件名。

vim、vi:为什么在编辑的时候会产生一个新的inode: 在使用vim打开文件是，会把当前打开的文件放入buffer中(内存)，然后进行操作。当我们保存时，相当于替换了原来的文件。所以会有个新的inode的文件产生。

误操作引起的Logstash重复收集
当需要做一个日志系统时，可能第一时间会想到ELK全家桶。ELK分别表示：Elasticsearch , Logst...
Filebeat、Logstash、Kafka 三步曲
Filebeat > Logstash > Kafka 使用步骤使用filebeat收集日志到logstash中...
2.Logstash介绍
2.1 Logstash简介 2.1.1 Logstash是什么？ Logstash是一个开源数据收集引擎，具有实...
数据采集--Logstash(四)
一、Logstash简介 Logstash是一个开源数据收集引擎，具有实时管道功能。Logstash可以动态地...
logstash + influxdb监控nginx日志
logstash + influxdb监控nginx日志 1.采用logstash收集/过滤数据 1.1 具体安装...
山石Hillstone Logstash 配置流程
logstash 介绍 Logstash是一个具有实时管道功能的开源数据收集引擎，Logstash可以动态地将来自...
了解Logstash
Logstash介绍 Logstash是一个开源数据收集引擎，具有实时管道功能。Logstash可以动态地将来自不...
Logstash
1. Logstash介绍 Logstash是一个开源数据收集引擎，具有实时管道功能。Logstash可以动态地将...
通过 Filebeat 收集 ubuntu 系统日志
需求：收集 ubuntu 系统日志，发送给 logstash，再由 logstash 把数据传递给 elastic...
通过 Filebeat 收集 ubuntu 系统日志
需求：收集 ubuntu 系统日志，发送给 logstash，再由 logstash 把数据传递给 elastic...