美文网首页技术
Open-Falcon日志采集组件的设计与实践

Open-Falcon日志采集组件的设计与实践

作者: 高家升_Gavin | 来源:发表于2018-10-23 20:08 被阅读97次

近期,笔者完成了【Open-Falcon日志采集组件】的开源工作。
原本这是公司内部的一个日志采集的agent,在开源的时候,笔者跟Open-Falcon结合起来了,这样同学们二次开发的成本更少些。
本文我们就来聊一聊监控系统 实时日志采集 的那些事。

前言

稳定性是当今互联网产品整个生命周期里,非常重要的一环。
监控系统,可以说是稳定性工作里的重中之重;监控系统可以说是运维的眼睛。事前及时预警发现故障,事后提供翔实的数据用于追查定位问题,都是监控系统的使命所在。
而监控系统的强大,对业务适配的程度,强依赖于数据的完整程度采集方式的多样性
而我们要聊的日志采集组件,就是采集方式多样性中的一环,解决其他采集方式成本较高时的采集问题。

关于监控系统的采集,我们在【运维监控系统专题(一):浅谈数据采集】 来进行深入探讨。

产品设计原则

在做一个项目之前,首先要调研清楚业务的需求,确认自己要做的东西是业务所要的。
首先,我们的日志采集,是用做其他采集方式比如埋点成本较高场景的补充的。那我们的首要原则就必须是轻量、易接入
其次,不同的场景,对于采集数据的计算方式不同,要提供灵活的配置项。
最后,外挂式的采集,虽然对服务进程没有侵入性,但仍然要在服务器上安装agent,因此做好资源隔离也是需求之一。

归纳如下:

  • 准确、实时、高效
  • 轻量,外挂式,最小的配置成本
  • 灵活的计算方式(avg、sum、cnt、min、max等)
  • 采集周期支持自定义
  • 资源占用可控

进程架构

Falcon-Log-Agent进程架构图

从用户视角来看,Falcon-Log-Agent做的事情是:一行行读取用户的日志,然后对日志进行分析,用正则抓取出需要的信息,统计好之后按周期上报至监控系统
整个进程大致分为三部分:日志读取计算统计&上报
接下来我们就详细介绍下这个Agent内部的设计和解耦方式。

内部模块间的解耦

内部模块间的解耦,主要是通过分模块的设计两个队列实现的。
日志的读取与计算之间,有一个队列,用来缓存读取出来的数据,同时由计算模块来消费,填满则丢。意味着此时计算能力跟不上读取能力。在复杂正则的场景,容易出现这种问题。
计算和计数都是单独的模块,计算完成后,去更新计数器。此时计数模块只需要一把互斥锁即可很好的应对。我们只要专心解决计算部分的并发难点即可。
数据的统计与发送之间,有一个队列,是用来批量发送数据的。防止分散发送给系统资源带来较大压力。

日志读取模块

日志的读取,说来简单,只要读就好了。
这里我们支持了一个动态的日志路径,支持日志末尾自带时间格式,例如:/path/access.log.${%Y%m%d%H}
这样程序会实时生成当前的日志文件名,然后进行读取。

日志计算模块

计算模块,会根据配置,每个文件初始化N个worker。同一组worker同时消费同一队列,并发计算,最终去更新计数模块。
为了应对worker的并发更新,计数模块数据结构初始化的时候,强依赖于设定的采集周期,不同周期使用不同的计数器。
关于worker状态的管理,数据上报时间的判定,大家可以在代码中参详:)。

自监控 & 资源隔离

一个监控系统,如果自监控做不好,是一件很打脸的事情。
Falcon-Log-Agent有详尽的对于自身状态的统计,定时的通过HandleMetrics方法处理。
如果要取这部分数据上报,可以直接push到发送队列。
如果另作他用,修改HandleMetrics方法即可。

Future

笔者公司的日志采集配置中心

这部分叫Future,其实在我司已经建设完成了。

  • 配置信息打通服务树
  • 中心化的配置模块,由agent自动拉取

上图是我们配置中心的截图,这部分实现起来不难,后期我们也会考虑将这部分建设向开源的方向推进。

相关文章

  • Open-Falcon日志采集组件的设计与实践

    近期,笔者完成了【Open-Falcon日志采集组件】的开源工作。原本这是公司内部的一个日志采集的agent,在开...

  • 乐高化产品,没有竞争协同作战

    将各自的产品拆解成一个个组件会怎样? 日志采集组件,流量采集组件,数据标准化组件,关联分析组件,流分析组件,情报生...

  • flume数据采集

    简介 flume官网里面有user guide。作用:日志采集、聚合、传输核心组件:Agentagent内部组件:...

  • Flume架构与实践

    Flume架构与实践 Flume是一款在线数据采集的系统,典型的应用场景是作为数据的总线,在线的进行日志的采集、分...

  • Hdoop入门之Flume

    概要 Flume是一个高可用的,分布式的实时的日志采集系统。Flume分为三个组件,Ource组件,负责信息的采集...

  • ELK配合Filebeat完成日志采集

    一、组件介绍 1.1 Filebeat Filebeat是本地文件的日志数据采集器,可监控日志目录或特定日志文件(...

  • 日志服务(SLS)集成 Spark 流计算实战

    前言 日志服务作为一站式的日志的采集与分析平台,提供了各种用户场景的日志采集能力,通过日志服务提供的各种与·与SD...

  • 2018上海云栖大会workshop-日志数据采集与分析对接

    摘要:日志数据采集与分析对接 课程描述 通过日志服务采集用户、数据库、业务等访问数据。演示对于业务日志分析与处理,...

  • Android 组件化开发实践

    Android组件化开发实践(一):为什么要进行组件化开发?Android组件化开发实践(二):组件化架构设计An...

  • 《大数据之路》读书笔记

    第2章 日志采集 2.1 浏览器的页面日志采集 主要分为两类:页面展现日志采集、页面交互日志采集 2.1.1 页面...

网友评论

    本文标题:Open-Falcon日志采集组件的设计与实践

    本文链接:https://www.haomeiwen.com/subject/fpeozftx.html