美文网首页
Filebeat占用文件句柄

Filebeat占用文件句柄

作者: andywangzhen | 来源:发表于2019-07-18 10:36 被阅读0次

背景

平台使用整套的ELK日志框架:服务写本地文件日志,由Filebeat监控本地日志,并写入ES。
本地Filebeat配置如下:

filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /data/workspace/*****/logs/debug.log
  close_renamed: true  
 # 仅初次使用
#  tail_files: true
  exclude_lines: ['"level":"debug"']
  fields:
    source: "XXXX"
  fields_under_root: true

output.logstash:
 # The Logstash hosts
  hosts: ["10.0.0.245:5044"]


processors:
    - drop_fields:
        fields: ["agent","ecs","input", "log", "host", "beat"]

问题:文件句柄占用,导致磁盘无法释放。重启Filebeat后可清理掉占用的磁盘。

问题初步排查

收到问题后,感觉是一个很常见的问题,就直接百度了一下,果然是一下就有很多的线索。结合一些帖子,对现有服务器做了排查,如下:

  1. 使用lsof | grep filebeat,查看当前服务器打开文件情况:


    1.png

    从图中可发现,现象就是文件被删除之后,文件句柄没有释放;文件更名之后,文件句柄也没有释放。
    同时可看到,配置close_renamed: true,无效。

  2. 论坛出给出的建议如下:


    2.png
    3.png

这里有两个问题:

  1. 如果设置了force_close_files: true, 那么文件更名后马上释放句柄会导致文件尾的数行数据丢失的风险;
  2. close_rename等无效的原因是什么?

初步解决方案

可设置:
close_older:1h
force_close_files:false
由于目前服务日志滚动的频率不是很高,文件更名后,1h左右不会被删除。所以可以尝试使用close_older配置在文件删除之前释放句柄。

=====================
2019/7/17更新:
调研后发现,close_older的默认值就是1h,所以该方案不会让原本的问题变得更好。

Filebeat调研

虽然问题可能会被解决,但对Filebeat还不够理解,并且上述提出的两个问题,没有很好的解答。因此,我继续对Filebeat做进一步的学习和实验。

Filebeat工作原理

资料链接:https://www.jianshu.com/p/6282b04fe06a
Filebeat主要组件:prospector和harvester,如图:

4.png
harvester:
如图可见,该组件负责打开文件,读取文件,记录文件读取位置等。
所以说,本次遇到的问题,和该组件的生命周期息息相关。
原文中提到scan_frequency,根据配置说明,是说以多快的频率检测文件更新,如果设置为0s,则会尽可能快的感知更新(CPU占用变高)。默认是10s。
prospector:
简单来讲,就是文件查找器,并为找到的每一个文件启动一个harvester。
目前只能读取本地文件,无法连接远程主机操作

filebeat保持文件状态:

  1. 每个文件,有唯一标识,并不是文件名和路径,因为文件名会变更;
  2. 记录每个文件的偏移量

filebeat保证至少一次交付:
每次交付会有状态,对端需要ACK确认。

注意:
Filebeat的至少一次交付保证包括日志轮换和删除旧文件的限制。如果将日志文件写入磁盘并且写入速度超过Filebeat可以处理的速度,或者在输出不可用时删除了文件,则可能会丢失数据。
在Linux上,Filebeat也可能因inode重用而跳过行。有关inode重用问题的更多详细信息,请参阅filebeat常见问题解答。(后续遇到的话,继续研究,本次略过)

close_renamed究竟是否可用?

首先看一下close_renamed的解释:
close_renamed
Only use this option if you understand that data loss is a potential side effect.
When this option is enabled, Filebeat closes the file handler when a file is renamed. This happens, for example, when rotating files. By default, the harvester stays open and keeps reading the file because the file handler does not depend on the file name. If the close_renamedoption is enabled and the file is renamed or moved in such a way that it’s no longer matched by the file patterns specified for the , the file will not be picked up again. Filebeat will not finish reading the file.
WINDOWS: If your Windows log rotation system shows errors because it can’t rotate the files, you should enable this option.
经过测试后发现,采用filebeat监听一个文本文件,通过mv将文件更改,close_renamed是管用的,但通过rm删除文件,close_renamed是不管用的。

5.png
6.png
那么为何在生产环境中,表现的现象却不是这样呢?直接尝试使用erlang的服务测试一下:
查看lager源码,操作文件的主要语句:
打开文件:file:open()
更改文件名字:file:rename()
测试如下:
  • 配置为close_renamed:true
  1. 首先使用file:open()打开文件,并输入新的内容,filebeat可监听到变化:


    7.png
8.png 9.png
  1. 使用file:rename()更改文件名,再查看lsof | grep test,发现文件句柄已经被回收


    10.png

    下图剩下的句柄,均为Erlang进程占用,已经没有filebeat


    11.png
  2. 使用file:close(Pid)关闭已打开文件的进程,再查看lsof | grep test,发现文件句柄被回收


    12.png
13.png

结论:未重现生产环境的现象。

  1. 尝试使用erlang应用不断写日志,文件切割大小设为2k,重复上述测试,仍然不重现问题。

阶段性结论:升级生产环境filebeat版本后,检查问题是否解决。

后续研究:

  1. 加大日志量输出,尝试重现问题。
  2. 尝试配置close_inactive和scan_frequency解决文件长时间未更新就释放句柄的方式。

close_inactive
启用此选项时,如果文件在指定的持续时间内没有更新,Filebeat会关闭文件句柄。如果关闭的文件再次发生变化,则会启动一台新的harvester,并在scan_frequency过去后采集最新的更改。建议将close_inactive设置为大于日志文件两次更新间隔时间的最大值。例如,如果日志文件每隔几秒更新一次,则可以安全地将close_inactive设置为1m。如果有更新频率非常不同的日志文件,则可以使用具有不同值的多个prospectors配置。将close_inactive设置为较低的值意味着文件句柄会更快关闭。但是,这具有副作用,即如果harvester关闭,则不会实时发送新的日志行。关闭文件的时间戳不取决于文件的修改时间,关闭文件的时间戳为修改文件的时间+close_inactive。例如,如果close_inactive设置为5分钟,那么在收割机读取文件的最后一行之后,5分钟的倒计时开始。您可以使用时间字符串,如2h(2小时)和5m(5分钟)。默认值是5m。

scan_frequency
指定扫描指定路径目录下是否有新的文件产生。例如,指定1以尽可能频繁地扫描目录,而不会导致Filebeat过于频繁地扫描。我们不建议将此值设置为<1秒。
如果您需要近实时发送日志行,请勿使用非常低的scan_frequency,但应调整close_inactive,以便文件处理程序保持打开状态并持续轮询您的文件。
默认设置是10秒。
注意区分backoff

相关文章

网友评论

      本文标题:Filebeat占用文件句柄

      本文链接:https://www.haomeiwen.com/subject/wheklctx.html