昨晚上课,老师表示一个合格的DBA首先是一个中级的SA
提到了SA的一些工具(用来诊断系统/MySQL的问题)
参考文档1(下载):Linux Performance Analysis and Tools.pdf
参考文档2(下载):system preformence中文翻译版:性能之巅 洞悉系统、企业与云计算
#######################################
架构
sysbench:172.17.100.107
MySQL:172.17.100.100
#######################################
iostat
iostat的部署
yum install sysstat -y
在107上通过sysbench对100写入数据
sysbench搭建参考:sysbench的搭建使用
sysbench --mysql-host=172.17.100.100 --mysql-port=3306 --mysql-user=tpcc --mysql-password=tpcc --test=/usr/local/sysbench/sysbench/tests/db/oltp.lua --oltp_tables_count=20 --oltp-table-size=10000000 --rand-init=on prepare
在100上启动iostat查看效果
iostat -d -m 10 1000 (-d表示展示磁盘使用情况,-c则是针对cpu,-m表示单位为MB,每10秒显示一行结果,显示1000行)
iostat -dxm 5(每5秒采集一次数据,一直显示)
关注点
w/s:每秒写入次数
r/s:每秒读次数
wMB/s:每秒写入量(MB)
await:IO平均处理时间+IO平均排队时间,该值也是一个综合指标,并不能完全反映磁盘性能(比如说排队时间很长);但这个指标很重要,反映了用户发起IO请求的平均延迟
svctm:并不是一个独立的事项,不能单独反映问题,直接无视
%util:并不能反映io的饱和度,即使是100%也不能表示io资源被用完
该参数参考文档:iostat指标算法详解
#######################################
iftop
iftop的部署:iftop的部署
常用命令
常规显示eth0的各项流量统计
eg.
iftop -i eth0
-F过滤某个段(只显示该段)
eg.
iftop -F 172.17.100.0/24
iftop -F 172.17.100.107/255.255.255.0
-P把端口也显示出来(相当于后面在界面上点击D和S)
iftop -P
进入iftop界面后常用的敲击指令
S:显示本端端口
D:显示远端端口
T:显示总流量
l(小写的L):输入过滤选项,比如输入过滤的IP,就只显示这个IP了
L:变化刻度
界面上关注的指标
=>表示发送数据
<=表示接收数据
TX:发送
RX:接收
peak:峰值
rate:2s,20s,40s之前的流量情况
-------------------------
PS:这个iftop的截图是我在做压测的run阶段截取的,sysbench部署在107上,而压测数据库为100,在我前期导入数据的prepare阶段,显示100为接收状态,当我进行到run阶段的时候,这里确显示数据流向为发送状态了
prepare为数据的导入,所以很好理解数据从107发送过来,100接收
但是run阶段为什么是100在往107发送呢?这个还没有想清楚,或许后面写tcpdump的时候,我会来复盘一下
#######################################
uptime
显示当前时间
启动时长(那个19:42表示已经启动了19个小时42分钟了)
当前用户总连接数(这个应该是指的登陆到该服务器的用户连接数,我试过用mysql从远端连接本地,显示的用户数仍然是1)
后面3个是系统分时段(1、5、15分钟)的平均负载,可以看到系统负载增减的一个趋势
#######################################
top
上面uptime显示的内容其实在top的第一行就全部体现了,所以上面的命令可以说是real尴尬
top的用法挺多,个人常见的3个操作
M:按内存使用率从高到低排序
P:按CPU使用率从高到低排序
1:显示所有CPU的使用情况
#######################################
htop
htop的部署:htop的部署
关于top和htop几个参数的意义,我就从别处粘贴过来了
PID:进行的标识号
USER:运行此进程的用户
PRI:进程的优先级
NI:进程的优先级别值,默认的为0,可以进行调整
VIRT:进程占用的虚拟内存值
RES:进程占用的物理内存值
SHR:进程占用的共享内存值
S:进程的运行状况,R表示正在运行、S表示休眠,等待唤醒、Z表示僵死状态
%CPU:该进程占用的CPU使用率
%MEM:该进程占用的物理内存和总内存的百分比
TIME+:该进程启动后占用的总的CPU时间
COMMAND:进程启动的启动命令名称
老实说可能是我比较愚钝,在我看来top和htop差不多,可能htop对内存,CPU通过类似进度条的展示让人感觉更直观一点
个人通常关注的几个指标
PID、VIRT、RES、CPU%、MEM%、command
关于VIRT、RES
VIRT表示进程申请的内存,而不是实际使用的内存;比如说进程申请了1G,但是当前使用了300M,那么VIRT显示为1G
VIRT=RES+swap out
RES和上面的VIRT相反,套用前面的例子,RES显示为300M;RES不包括swap out出的内存
排序查看方式与前面的top类似,不再赘述
#######################################
vmstat
常用指令
vmstat 1(每1秒实时刷新vmstat的结果)
r: 运行队列中进程数量,这个值也可以判断是否需要增加CPU。(长期大于1)
b: 等待IO的进程数量。
swpd: 使用虚拟内存大小,如果swpd的值不为0,但是SI,SO的值长期为0,这种情况不会影响系统性能。
free: 空闲物理内存大小。
buff: 用作缓冲的内存大小。
cache: 用作缓存的内存大小,如果cache的值大的时候,说明cache处的文件数多,如果频繁访问到的文件都能被cache处,那么磁盘的读IO bi会非常小。
#######################################
strace
常用参数
-T:记录各系统调用花费时间(图1的最后一列)
-tt:时分秒.微秒
-ttt:与tt精度一致,但是显示格式为unix格式;我个人而言喜欢用tt
-r:以第一个系统调用计时(图1的第一列)
-o:输出到文件
-p:pid(图1中的1419是mysqld的pid)
图1如上图所示,T是一个较为常用的参数,通常看到的数值都是0.0....,如果在调试时发现一些T值大于1甚至更高,那么就需要关注一下了
此外对于一些报错的行,肯定是要重点关注的
在执行命令时,需要把需要调试的进程名写进去,比如这里我需要调试mysqld,就得写进去,只写pid是不能出现结果的。
通常不会让结果直接在屏幕上直接显示,而是导入到某个log里,再通过其他方式查看
写法如下
strace -Tr -tt -o putout.log 进程名 -p pid
之前用strace观测过mysql启动的过程,目前还没有太多的解决mysql故障的案例
追踪mysql语句的指令
strace -f -F -ff -o mysqld-strace -s 1024 -p mysql_pid
find ./ -name "mysqld-strace*" -type f -print |xargs grep -n "SELECT.*FROM"
#######################################
ltrace
strace是系统层面的调试,ltrace是用户层面的调试,方法和参数与strace近乎一致
#######################################
tcpdump
常用参数
-c:抓包数
-i:网口
-nn:把端口显示为数字(而非服务名)
-vvv:输出的详细信息
-XX:输出包头部
-q:打印输出
-s:设置抓包的长度,默认65535(Byte)
port:端口
tcpdump对mysql抓包
tcpdump -i eth0 -q -s 65535 -nn -vvv -XX -c 1000 port 3306 > dmp.log
然后结合pt-query-digest进行分析
pt-query-digest --type tcpdump dmp.log > report.log
网友评论