AIX 性能管理与监控建议（二）

作者: 同创永益 | 来源:发表于2021-02-22 16:53 被阅读0次

转自公众号@twt社区，作者陈炽卉

3 I/O 监控

3.1 IO 响应时间评估

什么样的 IO 响应时间是合理的？如下是一些经验规则的总结：

对于使用机械硬盘、且未配置存储同步镜像的磁阵，评估随机 IO 响应时间的经验规则

配置同步镜像时，评估随机 IO 响应时间的经验规则

如果使用 SSD 存储

对于顺序 IO 而言，不需要担心 IO 服务时间，更应该关注吞吐率；

3.2 通过 nmon 快速定位繁忙的磁盘

进入 nmon 报告的 DISKBUSY 页面，观察 WAvg 的取值。如果 WAvg 在 90%以上，则可能存在磁盘热点，需要重点监控相关的磁盘。

注意：Avg 显示的平均值是全监控过程的平均（包括磁盘完全 idle 的时段）；而 WAvg 则是显示在监控时段且磁盘繁忙时的平均；由于 nmon 数据采集周期往往远远长于业务峰值时间，因此 WAvg 一般比 Avg 更有意义。

如下：

3.3 通过 sar/iostat 命令监控繁忙磁盘

可以通过 sar –d 或 iostat –D 监控繁忙磁盘，如下，其中响应时间以毫秒为单位。一般如果读平均响应时间超过 15ms，写平均响应时间超过 2.5ms，需要重点关注。

排队时间和 sqfull 取值如果长期不为空，则需要判断是否队列深度设置太小(queue_depth)。

说明：为方便脚本分析，一般建议在设置-D 选项同时，加上-l （小写的 L）和-T 选项。这样对应每个 hdisk 的输出将在同一行显示。

3.4 通过 fcstat 命令监控光纤卡

通过 fcstat 可以观察光纤卡的支持速率和运行速率，例如：

# fcstat fcs0|grep -i speed

Port Speed (supported): 8 GBIT

Port Speed (running): 8 GBIT

如果运行的速率低于实际支持的速率，则需要检查交换机与主机的链路状态是否正常。

如果显示如下两个指标持续增长(注意取值肯定是非零值，重点在于增长速度)，则需要相应的调整光纤卡的 max_xfer_size 和 num_cmd_elems:

或使用fcstat –D判断， num_cmd_elems 的取值应该大于或等于<high water mark of active commands> + <high water mark of pending commands>。比如如下例子中，可以设置 num_cmd_elems 为 180+91= 271.

3.5 使用 filemon 监控 IO 读写情况

可以用 filemon 监控 lf（文件系统），lv（逻辑卷），pv（物理卷），vmm（虚拟内存管理）层面的信息，如下：

# filemon -T 1000000 -u -O lf,lv,pv,detailed -o fmon.out

# sleep 5

# trcstop

生成的 filemon 报告输出在 fmon.out 里面。

注意：如果报告中出现 xxx events lost，则说明出现了 trace buffer 溢出，可以适当增加 trace buffer （由-T 指定），或者缩短监控周期（从 filemon 到 trcstop 的间隔）。

3.6 阅读 filemon 报告

可以通过 filemon 报告得到最忙的文件、逻辑卷以及物理卷信息，如下：

也可以从 filemon 的 Detailed report 中获得不同文件、逻辑卷、物理卷的读写情况以及响应时间：

其中 seeks 的百分比实际上预示了 IO 的模式，如果 seeks 比例接近 100%，则说明 IO 是随机型的。反之，如果 seeks 接近 0，则说明 IO 是顺序的。

4 网络监控

4.1 监控网络速率

可以使用 entstat –d entX 命令监控网络速率，以及收发包情况，例如如下场景：

# entstat -d ent0|grep -i speed

Media Speed Selected: Autonegotiate

Media Speed Running: 100 Mbps, Full Duplex

External-Network-Switch (ENS) Port Speed: 100 Mbps, Full Duplex

显示的网络运行速率为 100Mbps；如果实际测试中网络带宽超过 12.5MBps，则说明网络可能是性能瓶颈。

4.2 监控网络响应时间

ping 命令主要用来检查网络的连通性。从 ping 的结果，可以检查网络的质量、丢包率等。Ping 响应的 time 值，可以用来判断两台主机直接的网络传送延时情况，在局域网服务器之间（大多数为万兆卡光纤连接），time 值应该低于 1ms.

如下提供了一个脚本用于评估两台主机之间的网络延迟：

4.3 监控网卡状态

同时 entstat –d 命令也可以监控到 etherchannel 网卡的流量分布状态（例如收发包以及收发带宽分布情况），以及 802.3ad 链路的聚合状态，例如，如下示例显示了一个 802.3ad 聚合成功的网卡状态：

4.4 监控网络连接状态

netstat 是用来对网络运行进行统计观察的最常用的一个工具。netstat 有很多参数，主要用的的有 -in/ -an/ 等等。使用 -in 选项时，需要关注 Ierrs 和 Oerrs 两栏。Ierrs 表示接收失败的总包数，Oerrs 表示发送失败的总包数。检查 Ierrs/Ipkts 超过 1% 时，或者 Oerrs/Opkts 超过 1% 时，此时可能要检查一下网络是否存在不稳定的情况。

使用 -an 选项时，注意 Recv-Q、Send-Q 和 state 这三栏。Recv-Q 表示接收网卡队列的排队情况，Send-Q 表示网卡发送队列的排队情况。state 表示网络连接的状态，一般为 LISTEN 或者 ESTABLISH。当连接长时间处于 LAST_ACK、FIN_WAIT 之类的状态时，说明相关的 TCP 连接状态比较差，如果该 TCP 连接是应用程序所使用，那么需要引起注意。