1. 故事背景
客户服务器运行了有2年左右了,突然有一点硬盘满了,导致了服务权限崩溃(这台服务器又刚刚好没有做空间检测报警)。
登录后,我快速清理了几个大的 log 文件,然后重启服务后开始排查问题。
# 查看硬盘
$ df -lh
2. 如何排查
2.1 Log目录空间检测
首先想到的是服务的 log 文件积累过多,但是服务器是有做日志自动清理的,所以最终清理下来没有释放多少空间。
# 查看 log 专属目录的空间占用
$ du -h --max-depth=2 /data/docker/log
2.2 Docker 容器空间占用
我们的服务都是基于 docker 构建与运行的,上面 /data/docker/log 存放的都是 docker container 映射到 host 主机的 log 文件。经过检测是大小正常的,占用不大。
那么还有另外一种可能就是 docker container 里没有映射到主机的,一般的 docker ps 指令都是没有相关的空间信息,需要通过以下指令进一步分析:
# 查看 Docker 的磁盘使用情况。(镜像、容器)
$ docker system df
>
TYPE TOTAL ACTIVE SIZE RECLAIMABLE
Images 19 19 8.844GB 4.094GB (46%)
Containers 28 24 1.572GB 19.8MB (1%)
Local Volumes 2 2 298.2MB 0B (0%)
Build Cache 0 0 0B 0B
# 查看每个 container 容器的占用磁盘空间
$ docker system df -v
# docker 基本信息(包含一些空间使用)
$ docker info
简单无用信息清理
查看后,我使用以下指令进行初步的无用信息清理。最终发现这部分资源占用实际也不到。
# 用于清理磁盘,删除关闭的容器、无用的数据卷和网络,以及 dangling 镜像(即无 tag 的镜像)
docker system prune
# 清理得更加彻底,可以将没有容器使用 Docker 镜像都删掉。
$ docker system prune -a
针对性 docker container 分析
# 可以查看到 container 所在的目录(关键的是 LogPath)
$ docker inspect [你的container]
>
"HostsPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/hosts",
"LogPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7-json.log",
# 【重点】查看整个 docker containers 的大小
$ du -h --max-depth=0 /data/lib/docker/containers
# 找出各个 docker container 的空间占用大小
$ du -h --max-depth=1 /data/lib/docker/containers
果然是存在 docker container 空间占用过大的,接下来我们就要清理一下该 container 的日志
# 查看容器名字
docker inspect [容器ID]|grep Name
# 查看容器的日志路径(就是刚说到的 LogPath,实际也就是 container_id/container_id.json)
$ docker inspect [占用空间大的 Container ID]|grep "LogPath"
# 或者
$ docker inspect --format='{{.LogPath}}' [容器ID]
# 清理log文件 (一般需要先进入到 su root)
$ > [要清空的文件路径]
# 或者
$ sudo echo -n "" [要清空的文件路径]
3. 运维配置
Docker在不重建容器的情况下,日志文件默认会一直追加,时间一长会逐渐占满服务器的硬盘的空间,内存消耗也会一直增加。
docker logs -f [容器ID] --tail=100 看到的标准输出(console.log/puts/print)都会一直累计到 json.log,如果容器不销毁,就会越来越大。
限制单个 container 的容量大小
避免某个 container 导致整服务崩溃。
启动容器时,我们可以通过参数来控制日志的文件个数和单个文件的大小
# max-size 最大数值。容器的单个日志文件大小
# max-file 最大日志数。容器的日志文件数量,当单个文件大小达到 max-size 时自动切割: id-json.log、id-json.log.1、id-json.log.2...
$ docker run -it --log-opt max-size=100m --log-opt max-file=3 [container name]
测试
# rails c
> (0..10000).each{Logger.new('/proc/1/fd/1').warn("输出到 docker logs")}
全局配置
// /etc/docker/daemon.json
{
"log-driver":"json-file",
"log-opts":{
"max-size" :"50m","max-file":"1"
}
}
// 重启服务
$ sudo systemctl daemon-reload
$ sudo systemctl restart docker
网友评论