Linux性能60秒快速分析

作者: 谭英智 | 来源:发表于2023-12-16 23:04 被阅读0次

Linux应用性能分析及故障排查
linux 程序性能分析工具 gprof
linux比较实用的命令记录(三)
linux：性能优化
io性能分析工具-iostat
详解移动应用测试神器PerfDog
linux性能分析
PHP高手进阶指南
linux 系统60s
optimize

出自：https://netflixtechblog.com/linux-performance-analysis-in-60-000-milliseconds-accc10403c55

简介

一般来说Linxu系统出现性能问题，离不开以下几点：

CPU
网络
内存
IO

通过下一章节的10条命令，可以快速知道关于Linux上面罗列的数据

命令分析

uptime              # load averages
dmesg | tail        # kernel errors
vmstat 1            # overall stats by time
mpstat -P ALL 1     # CPU balance
pidstat 1           # process usage
iostat -xz 1        # disk I/O
free -m             # memory usage
sar -n DEV 1        # network I/O
sar -n TCP,ETCP 1   # TCP stats
top                 #check overview

uptime
```
$ uptime 
23:51:26 up 21:31, 1 user, load average: 30.02, 26.43, 19.02
```
通过uptime，可以得到CPU平均负载的数据

分别时 1 min / 5 min / 15 min的平均负载

这个例子的数据代表，近1分钟，CPU的负载要高于 5 分钟和 15分钟的，代表CPU的使用负载呈现越来越高的趋势

dmesg | tail

$ dmesg | tail
[1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0
[...]
[1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child
[1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, file-rss:0kB
[2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request.  Check SNMP counters.

当内核出现故障，一般都会把ERROR日志输出到dmesg里

通过查看dmesg，可以快速判定kernel是否出现异常情况

导致Linux出现性能问题

vmstat 1

$ vmstat 1
procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
34  0    0 200889792  73708 591828    0    0     0     5    6   10 96  1  3  0  0
32  0    0 200889920  73708 591860    0    0     0   592 13284 4282 98  1  1  0  0
32  0    0 200890112  73708 591860    0    0     0     0 9501 2154 99  1  0  0  0
32  0    0 200889568  73712 591856    0    0     0    48 11900 2459 99  0  0  0  0
32  0    0 200890208  73712 591860    0    0     0     0 15898 4840 98  1  1  0  0
^C

vmstat会实时打印出内存的使用情况

r：代表有多少个进程等待着被CPU调度，如果这里的数量比较大，会对CPU的调度产生压力
free：代表可用的内存，单位时 k ，
si/so：代表内存的换出换入，如果这里不是零，代表内存严重不足
us / sy / id / wa / st：代表CPU的user time， system time， idle time和stolen time是，通过这四个值，可以知道CPU主要花费的时间是在用户态，还是内核态，还是等待IO

mpstat -P ALL 1

$ mpstat -P ALL 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)

07:38:49 PM  CPU   %usr  %nice   %sys %iowait   %irq  %soft  %steal  %guest  %gnice  %idle
07:38:50 PM  all  98.47   0.00   0.75    0.00   0.00   0.00    0.00    0.00    0.00   0.78
07:38:50 PM    0  96.04   0.00   2.97    0.00   0.00   0.00    0.00    0.00    0.00   0.99
07:38:50 PM    1  97.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   2.00
07:38:50 PM    2  98.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   1.00
07:38:50 PM    3  96.97   0.00   0.00    0.00   0.00   0.00    0.00    0.00    0.00   3.03
[...]

这条命令可以知道每个CPU花费的时间是在用户态还是内核态

pidstat 1

$ pidstat 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)

07:41:02 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
07:41:03 PM     0         9    0.00    0.94    0.00    0.94     1  rcuos/0
07:41:03 PM     0      4214    5.66    5.66    0.00   11.32    15  mesos-slave
07:41:03 PM     0      4354    0.94    0.94    0.00    1.89     8  java
07:41:03 PM     0      6521 1596.23    1.89    0.00 1598.11    27  java
07:41:03 PM     0      6564 1571.70    7.55    0.00 1579.25    28  java
07:41:03 PM 60004     60154    0.94    4.72    0.00    5.66     9  pidstat

07:41:03 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
07:41:04 PM     0      4214    6.00    2.00    0.00    8.00    15  mesos-slave
07:41:04 PM     0      6521 1590.00    1.00    0.00 1591.00    27  java
07:41:04 PM     0      6564 1573.00   10.00    0.00 1583.00    28  java
07:41:04 PM   108      6718    1.00    0.00    0.00    1.00     0  snmp-pass
07:41:04 PM 60004     60154    1.00    4.00    0.00    5.00     9  pidstat
^C

pidstat可以打印出正在高速运行的进程CPU的占用情况

pidstat滚动的打印实时状态，这样可以通过观察它的输出变化，实时知道系统CPU被某进程占用的过程数据

这里java进程的CPU占用率达到1590%，代表它占用了16个CPUs

iostat -xz 1

$ iostat -xz 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          73.96    0.00    3.73    0.03    0.06   22.21

Device:   rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
xvda        0.00     0.23    0.21    0.18     4.52     2.08    34.37     0.00    9.98   13.80    5.42   2.44   0.09
xvdb        0.01     0.00    1.02    8.94   127.97   598.53   145.79     0.00    0.43    1.78    0.28   0.25   0.25
xvdc        0.01     0.00    1.02    8.86   127.79   595.94   146.50     0.00    0.45    1.82    0.30   0.27   0.26
dm-0        0.00     0.00    0.69    2.32    10.47    31.69    28.01     0.01    3.23    0.71    3.98   0.13   0.04
dm-1        0.00     0.00    0.00    0.94     0.01     3.78     8.00     0.33  345.84    0.04  346.81   0.01   0.00
dm-2        0.00     0.00    0.09    0.07     1.35     0.36    22.50     0.00    2.55    0.23    5.62   1.78   0.03
[...]
^C

r/s w/s rkB/s wkB/s：分别代表read per second， write per second， read kb per second， write kb per second
await：代表平均IO处理的时间，单位是毫秒，如果这个值高于平均值，代表设备出现高负载，或者出现了问题
avgrq-sz：代表设别处理的平均请求，如果这个值高于1，代表设备已经饱和，来不及处理IO请求
%util：代表设备的使用率，高于60%，代表设备非常忙碌

free -m
```
$ free -m
             total       used       free     shared    buffers     cached
Mem:        245998      24545     221453         83         59        541
-/+ buffers/cache:      23944     222053
Swap:            0          0          0
```
内存的使用情况，包括可用内存，已使用内存，总内存，缓冲，缓存
- buffers：缓冲，用于加快write IO
- cached：缓存，用于加快read IO
如果上面这两个值几乎等于零，会导致IO的性能出现问题

sar -n DEV 1

$ sar -n DEV 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015     _x86_64_    (32 CPU)

12:16:48 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
12:16:49 AM      eth0  18763.00   5032.00  20686.42    478.30      0.00      0.00      0.00      0.00
12:16:49 AM        lo     14.00     14.00      1.36      1.36      0.00      0.00      0.00      0.00
12:16:49 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

12:16:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
12:16:50 AM      eth0  19763.00   5101.00  21999.10    482.56      0.00      0.00      0.00      0.00
12:16:50 AM        lo     20.00     20.00      3.25      3.25      0.00      0.00      0.00      0.00
12:16:50 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
^C

这命令可以查看网络设备的吞吐率

rxkB/s 和 txkB/s 可以得到目前网络的负载，

通过对比网卡的速率，可以知道网卡的处理是否已经达到瓶颈

例如上面个的，eth读负载在22 Mbytes/s, 代表 176 Mbits/sec，这要比网卡的速率例如 1 Gbit/sec 要低得多

sar -n TCP,ETCP 1

$ sar -n TCP,ETCP 1
Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)

12:17:19 AM  active/s passive/s    iseg/s    oseg/s
12:17:20 AM      1.00      0.00  10233.00  18846.00

12:17:19 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
12:17:20 AM      0.00      0.00      0.00      0.00      0.00

12:17:20 AM  active/s passive/s    iseg/s    oseg/s
12:17:21 AM      1.00      0.00   8359.00   6039.00

12:17:20 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
12:17:21 AM      0.00      0.00      0.00      0.00      0.00
^C

这条命令可以知道TCP数据的处理情况

active/s：本地生成的TCP连接的数量，例如调用connect
passive/s：被动产生TCP连接的数量，例如accept
retrans/s：TCP重传的数量

TCP重传如果数量大，代表网络质量不好，导致出现了TCP丢包的情况

top

$ top
top - 00:15:40 up 21:56,  1 user,  load average: 31.09, 29.87, 29.92
Tasks: 871 total,   1 running, 868 sleeping,   0 stopped,   2 zombie
%Cpu(s): 96.8 us,  0.4 sy,  0.0 ni,  2.7 id,  0.1 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  25190241+total, 24921688 used, 22698073+free,    60448 buffers
KiB Swap:        0 total,        0 used,        0 free.   554208 cached Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 20248 root      20   0  0.227t 0.012t  18748 S  3090  5.2  29812:58 java
  4213 root      20   0 2722544  64640  44232 S  23.5  0.0 233:35.37 mesos-slave
 66128 titancl+  20   0   24344   2332   1172 R   1.0  0.0   0:00.07 top
  5235 root      20   0 38.227g 547004  49996 S   0.7  0.2   2:02.74 java
  4299 root      20   0 20.015g 2.682g  16836 S   0.3  1.1  33:14.42 java
     1 root      20   0   33620   2920   1496 S   0.0  0.0   0:03.82 init
     2 root      20   0       0      0      0 S   0.0  0.0   0:00.02 kthreadd
     3 root      20   0       0      0      0 S   0.0  0.0   0:05.35 ksoftirqd/0
     5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
     6 root      20   0       0      0      0 S   0.0  0.0   0:06.94 kworker/u256:0
     8 root      20   0       0      0      0 S   0.0  0.0   2:38.05 rcu_sched

可以得到整个系统的概况数据

Linux应用性能分析及故障排查
本文核心内容： Linux性能分析故障模拟和混沌工厂故障分析和解决一、Linux性能分析上图、性能优化命令...
linux 程序性能分析工具 gprof
linux 程序性能分析工具 gprofgprof基本原理使用方式数据分析 linux 程序性能分析工具 gpro...
linux比较实用的命令记录(三)
Linux 性能分析常用工具
linux：性能优化
linux的性能优化：1、CPU，MEM2、DISK－－RAID3、网络相关的外设，网卡 linux系统性能分析：...
io性能分析工具-iostat
linux-io性能分析 iostat (input/output statistics) 是一个linux系统监...
详解移动应用测试神器PerfDog
PerfDog介绍：移动全平台iOS/Android性能测试、分析工具平台。快速定位分析性能问题，提升APP应用...
linux性能分析
free 通过读取/proc/meminfo文件中信息，显示系统中空闲物理内存总量，已使用的内存总量，swap空间...
PHP高手进阶指南
Linux常用命令 grep、awk、sed、sort、uniq、ps、df Linux系统性能分析 vmstat...
linux 系统60s
我们在遇到linux下的程序性能问题或做故障排查的时候，需要快速做个粗略的定位，再做详细的分析，检查项目包括： 1...
optimize
linux性能分析及调优__cpu 性能瓶颈调优可调性能参数、内存性能瓶颈可调性能参数(操作系统设置swap的目...