美文网首页
日志那些事儿

日志那些事儿

作者: 挺婷Tina | 来源:发表于2019-07-15 20:52 被阅读0次

    一、什么是日志

    在计算机领域,日志是一个记录了发生在运行中的操作系统或其他软件中的事件,或者记录了在网络聊天软件的用户之间发送的消息。在任何系统中,日志都是非常重要的组成部分,它是反映系统运行情况的重要依据,也是排查问题时的必要线索。

    二、日志的用处

    好的日志可以帮助我们

    • 了解线上系统的运行状态
    • 快速准确定位线上问题
    • 发现系统瓶颈
    • 预警系统潜在风险
      挖掘产品最大价值
      ……

    三、日志的类型

    • 访问日志

    访问日志一般是记录了所有对web服务器的访问请求,这样网络管理员就可以分析用户的浏览行为,找到热点,找到待优化的地方。

    • 行为日志

    行为日志是用来记录记录和统计用户触发的各种行为。
    是网站运营人员统计、分析用户的重要依据

    • 应用日志

    应用日志包含应用程序编写的各种错误消息、警告或其他事件。这些消息可以提供连接到特定用例的逻辑、高级信息。这些消息可以帮助我们了解应用程序的行为。常见的一些应用日志内容为:

    1. 调用依赖的外部第三方系统的消息提示
    2. 业务异常的堆栈跟踪。
    3. 重要的状态变化。
    • 系统日志

    系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。

    日志格式

    每种类型的日志都有一些自己的日志格式,这里我们推荐一个行业标准的日志格式:

    Common Log Format(access log)

    它又称The NCSA Common Log,是web服务器产生访问日志的标准格式

    下列是一个日志示例以及各字段的说明:

    125.125.125.125 - dsmith [10/Oct/1999:21:15:05 +0500] "GET /index.html HTTP/1.0" 200 1043

    下列是对这个例子中的字段解释:

    字段 说明
    host (125.125.125.125 in the example) 发出这次HTTP请求的客户端主机的IP地址
    rfc931 ("-" in the example) 用于标识发出HTTP请求的客户端的标识符。如果不存在值,则替换“ - ”
    username (dsmith in the example) 用户名/用户ID,主要用于客户端的认证。如果不存在值,则替换“ - ”
    date:time timezone ([10/Oct/1999:21:15:05 +0500] in the example) 这次HTTP请求的日期以及时间戳
    request ("GET /index.html HTTP/1.0" in the example) HTTP请求。请求字段包含三条信息。主要部分是请求的资源(index.html)。请求字段还包含HTTP方法(GET)和HTTP协议版本(1.0)
    statuscode (200 in the example) 状态码,标识此次请求是失败还是成功
    bytes (1043 in the example) 一次Http请求中,所传输的数据大小,不包括Http头

    日期/时间字段里的具体格式是:

    [dd/MMM/yyyy:hh:mm:ss +-hhmm]

    字段 说明
    dd 是当月所在的日子
    MMM 月份
    yyy
    :hh 小时
    :mm 分钟
    :ss
    +-hhmm 时区

    实际上,即使是一位数天,这一天通常也会以两位数格式记录。例如,该月的第二天将表示为02。但是,某些HTTP服务器会将单个数字日记录为单个数字,所以在看日志的时候,要知道这两种日期格式的存在。

    日志等级

    DEBUG:该级别日志的主要作用是对系统每一步的运行状态进行精确的记录。可以将各类详细信息记录到DEBUG里,起到调试的作用,包括参数信息、调试细节信息、返回值信息等。

    INFO:该种日志记录系统的正常运行状态,通过查看INFO级别的日志,可以很快地对系统中出现的 WARN,ERROR,FATAL错误进行定位。可以将初始化系统配置、业务状态变化信息,或者用户业务流程中的核心处理记录到INFO日志中,方便日常运维工作以及错误回溯时上下文场景复现。

    WARN:该日志表示系统可能出现问题,也可能没有。

    ERROR:该级别的错误也需要马上被处理,但是紧急程度要低于FATAL级别。ERROR应该尽量详细记录。

    FATAL:需要立即被处理的系统级错误。系统需要将错误相关痕迹以及错误细节记录FATAL日志中,方便后续人工回溯解决。

    日志系统

    在Unix系统上,有两类常用的日志系统,很多日志系统都是基于他们做了具体的实现:

    1.syslog

    Syslog常被称为系统日志或系统记录,是一种用来在互联网协议(TCP/IP)的网上中传递记录档消息的标准。这个词汇常用来指涉实际的syslog协议,或者那些提交syslog消息的应用程序或数据库。常见的应用场景是网络管理工具、安全管理系统、日志审计系统。

    完整的syslog日志中包含产生日志的程序模块(Facility)、严重性(Severity或 Level)、时间、主机名或IP、进程名、进程ID和正文。在Unix类操作系统上,能够按Facility和Severity的组合来决定什么样的日志消息是否需要记录,记录到什么地方,是否需要发送到一个接收syslog的服务器等。

    下面是一个syslog消息:

    <30>Oct 9 22:33:20 hlfedora auditd[1787]: The audit daemon is exiting.

    其中“<30>”是PRI部分,“Oct 9 22:33:20 hlfedora”是HEADER部分,“auditd[1787]: The audit daemon is exiting.”是MSG部分。

    具体syslog的格式可参考 RFC3164:https://www.ietf.org/rfc/rfc3164.txt

    2.journald

    与传统日志系统syslog相对应的,是二进制日志格式的journalctl
    关于jornalctl是什么,可以看看鸟哥写的这篇简介:systemd-journald.service 简介

    为什么出现journalctl?

    以往,日志往往被分散在整套系统当中,由不同的守护进程及进程负责处理,这就让我们很难跨越多种应用程序对其内容进行解读。而从Centos7开始,
    systemd尝试提供一套集中化管理方案,从而统一打理全部内核及用户级进程的日志信息。这套系统能够收集并管理日志内容,而这也就是我们所熟知的journal。

    Journal的实现归功于journald守护进程,其负责处理由内核、initrd以及服务等产生的信息。你可以看下这篇文章,看看如何使用journalctl来查看日志:https://www.linode.com/docs/quick-answers/linux/how-to-use-journalctl/

    作为一个二进制格式的日志,网上对此有很多争议和讨论,Douglas DeMaio在文章syslog-ng vs. systemd’s journald中认为syslog比journalctl的更好,他认为syslog在多机器下性能表现更好,并且可以支持更多的输入/输出源;但也有人认为journatl 更好,因为它可以让开发者更容易检索到他们要查看的应用日志,而且这些日志是结构化的。 比如这篇Why journal?就描述了另一种观点。

    分布式系统日志:zipkin调用链服务日志

    分布式系统日志统一的手段有很多,比如常见的ELK,但这些日志都是文本,不太容易做分析。我们遇到问题时,更多的想查看从上至下的的关键点的入参、出参、异常,关键节点的响应时间等等,将分散的请求串联在一起,查看整个调用链数据。在这里常用的工具便是zipkin了。

    Zipkin是一款开源的分布式实时数据追踪系统(Distributed Tracking System),基于 Google Dapper的论文设计而来,由 Twitter 公司开发贡献。其主要功能是聚集来自各个异构系统的实时监控数据。了解zipkin之前,你可以先了解下Google Dapper,这是它的论文:https://ai.google/research/pubs/pub36356
    对于zipkin,你需要了解以下概念:

    • Brave:
      提供了面向 Standard Servlet、Spring MVC、HTTP Client、JAX RS、Jersey、Resteasy 和 MySQL等接口的装备能力,可以通过编写简单的配置和代码,让基于这些框架构建的应用可以向 Zipkin 报告数据。同时 Brave 也提供了非常简单且标准化的接口,在以上封装无法满足要求的时候可以方便扩展与定制。
      - traceId: 一次请求全局只有一个traceId。用来在海量的请求中找到同一链路的几次请求。
    • spanId: 每个请求都有一个独立的spanId,例如一次RPC,一次SQL均会产生
    • cs: 客户端发起请求的时间
    • cr: 客户端收到处理完请求的时间
    • ss: 服务端处理完逻辑的时间
    • sr: 服务端接受请求的时间

    日志的归档

    日志在运行过程中,增长会越来越快,服务器会很快消耗磁盘空间。Linux下有个logrotate工具,可以帮助我们进行日志的滚动归档等日志操作。logrotate是个十分有用的工具,它可以自动对日志进行截断(或轮循)、压缩以及删除旧的日志文件。我们只需要在/etc/logrotate.conf这个目录下配置logrotate的配置文件即可。

    logrotate的使用

    一般会定时运行 logrotate,通常是每天一次;当然也可以定时任务contrab配合使用,直接运行 /etc/cron.daily/logrotate 脚本。详细的使用办法可以去官网上查看

    日志的最佳实践

    对于如何更好地打log这件事,网上有不少最佳实践,这里你可以看看这几篇文章:

    Reference:

    1. Log File Formats: NCSA Common.IBM

    2. The Ins and Outs of System Logging Using Syslog

    3. https://www.loggly.com/ultimate-guide/linux-logging-with-systemd/

    相关文章

      网友评论

          本文标题:日志那些事儿

          本文链接:https://www.haomeiwen.com/subject/qpysqctx.html