美文网首页监控系统
系统监控和业务监控

系统监控和业务监控

作者: aceaoh | 来源:发表于2017-09-25 17:04 被阅读354次

    最近有一个项目有监控服务器系统指标和业务指标的功能,需要对页面展示数据和真实的系统和业务数据进行对比,总结一下系统监控的一些linux主机数据获取如下:
    以centos7为例,

    系统负载

    (分钟数据,获取到的是1分钟均值,可以间隔10秒取一次,取6次值平均)

    uptime | awk '{print $(NF-2)}'|awk -F ',' '{print $1}'
    

    系统连接数

    (实时数据,分钟数据可以在1分钟内多次获取,然后取均值或者根据需要取max或者min)

    netstat -na|grep ESTABLISHED|wc -l
    

    CPU信息

    cat /proc/cpuinfo
    

    CPU负载

    CPU总使用

    cat /proc/stat|  head -n 1 |grep cpu | awk '{print ($2+$3+$4+$5+$6+$7+$8+$9+$10)}'
    

    (totalCpuTime = user + nice + system + idle + iowait + irq + softirq + stealstolen + guest)

    CPU有效使用

    cat /proc/stat|  head -n 1 |grep cpu | awk '{print ($2+$3+$4+$6+$7+$8+$9+$10)}'
    

    上面两个值是系统开始到现在的总使用时间统计,所以需要在间隔时间之后再次取值,然后相减取差值
    可以间隔单位时间再次取值
    负载百分比等于 100单位时间有效使用/单位时间总使用
    100
    (total-idle)/total

    CPU单核最高利用率

    cpu的物理核数

    cat /proc/stat | grep cpu |wc -l
    

    取出所有的cpu使用情况

     cat /proc/stat|grep cpu
    

    从第二行开始为各个cpu的使用情况,同计算负载一样的方法计算出单个cpu的负载,然后取最大值

    CPU IO-Wait

    cpu等待

    cat /proc/stat|  head -n 1 |grep cpu | awk '{print $6}'
    

    IO-Wait:

    cpu等待/cpu总使用

    内存信息

    meminfo

    cat /proc/meminfo
    

    MEM-load

     free -b -t|grep Total|awk '{print 100*$3/$2}'
    

    动态值,瞬时取值,单位时间值需要多次取值然后求均值

    MEM-Swap

    free -b -t|grep Swap|awk '{print 100*$3/$2}'
    

    动态值,瞬时取值,单位时间值需要多次取值然后求均值

    网卡:

    ifconfig
    

    不同的操作系统会得到不一样的数据
    有些是
    eth0: ..............
    RX packets 2414861 bytes 224486412 (214.0 MiB)
    RX errors 0 dropped 254480 overruns 0 frame 0
    TX packets 488418 bytes 1252214442 (1.1 GiB)
    TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

    lo: .........
    RX packets 508834 bytes 128174116 (122.2 MiB)
    RX errors 0 dropped 0 overruns 0 frame 0
    TX packets 508834 bytes 128174116 (122.2 MiB)
    TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

    有些是
    eth0........................
    RX packets:99183391 errors:0 dropped:0 overruns:0 frame:0
    TX packets:95740501 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:1000
    RX bytes:44802775232 (41.7 GiB) TX bytes:21799717285 (20.3 GiB)

    lo..........................
    RX packets:1619038 errors:0 dropped:0 overruns:0 frame:0
    TX packets:1619038 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:0
    RX bytes:163500226 (155.9 MiB) TX bytes:163500226 (155.9 MiB)

    rx入口包量

     ifconfig |grep 'RX packets'|sed 's/:/ /g'|awk '{sum += $3};END {print sum}'
    

    tx出口包量

    ifconfig |grep 'TX packets'|sed 's/:/ /g'|awk '{sum += $3};END {print sum}'
    

    出口流量和入口流量就需要区别对待
    不过还有一个方法,用cat /proc/net/dev(参见附部分说明)

    出口包量:

     cat /proc/net/dev|grep :|awk '{sum +=$11};END {print sum}'
    

    入口包量:

    cat /proc/net/dev|grep :|awk '{sum +=$2};END {print sum}'
    

    出口流量:

    cat /proc/net/dev|grep :|awk '{sum +=$10};END {print sum}'
    

    入口流量:

    cat /proc/net/dev|grep :|awk '{sum +=$3};END {print sum}'
    

    统计值是一个系统启动到当前的合计值,计算单位时间需要间隔时间取值两次取差值

    磁盘数据

    查看磁盘数据df -lh

     iostat -d -k
    

    tps磁盘的请求数每秒
    kB_read/s:每秒从设备(drive expressed)读取的数据量;
    kB_wrtn/s:每秒向设备(drive expressed)写入的数据量;
    kB_read:读取的总数据量;
    kB_wrtn:写入的总数量数据量;这些单位都为Kilobytes

    注意读写的总量是累计值,单位时间的值需要进行差值计算

    业务数据分析

    业务数据分析主要是分析nginx的日志请求
    可以配置nginx的日志输出格式以及输出选项,对日志内容进行分析

    案例1:

    查询某一时间,第三个字段不为某值并且第21个字段为某值的百分比

    cat nginx.log|awk -F '日志字段分隔符' '{if($1~/查询时间(日志的第一个字段是请求时间)/ && $3~!/(第三个字段不为某个值)/){sum +=$15; if($21~/(第21个字段为某一个值)/) sumhit += $15}};END {print 100*sumhit/sum}'
    

    案例2:

    查询某一时间,第12个字段是2xx或者3xx的日志条数

    cat nginx.log|awk -F '日志字段分隔符' '{if($1~/查询时间(日志的第一个字段是请求时间)/&&($12~/2[0-9][0-9]/||$12~/3[0-9][0-9]/)) print $12}'|wc -l
    

    案例3:

    查询某一时间,如果第37字段为0则记为1,然后求第37字段之和与第15字段之和的商值

    cat nginx.log|awk -F '|' '{if($1~/查询时间(日志的第一个字段是请求时间)/){if($37==0){$37=1;} sumin += $37;sumout +=$15}};END {print sumout/sumin}'
    

    案例4:

    查询某一时间,业务成功率,第12字段为业务返回码,2xx和3xx表示业务返回成功

    cat nginx.log|awk -F '|' '{if($1~/查询时间(日志的第一个字段是请求时间)/) print $12}'|awk '{sum +=1;if($1~/2[0-9][0-9]/||$1~/3[0-9][0-9]/) oksum +=1};END {print 100*oksum/sum}'
    

    案例5:

    查询某一时间段内,业务成功率,第12字段为业务返回码,2xx和3xx表示业务返回成功

    cat nginx.log|awk -F '|' '$1>"查询开始时间"(日志的第一个字段是请求时间)&& $1<"查询结束时间"' |awk -F '|' '{sum +=1;if($12~/2[0-9][0-9]/||$12~/3[0-9][0-9]/) oksum +=1};END {print 100*oksum/sum}'
    

    等等
    主要就是运用cat awk sed等对日志文件进行分析


    (附:/proc/stat的说明)

     cat /proc/stat
    

    user----从系统启动开始累计到当前时刻,处于用户态的运行时间,不包含 nice值为负进程
    nice----从系统启动开始累计到当前时刻,nice值为负的进程所占用的CPU时间
    system----从系统启动开始累计到当前时刻,处于核心态的运行时间
    idle----从系统启动开始累计到当前时刻,除IO等待时间以外的其它等待时间
    iowait----从系统启动开始累计到当前时刻,IO等待时间
    irq----从系统启动开始累计到当前时刻,硬中断时间
    softirq----从系统启动开始累计到当前时刻,软中断时间
    stealstolen----虚拟环境中其他系统中运行时时间
    guest----Linux内核来宾系统虚拟CPU所花费的时间

    (附:/proc/net/dev的说明)

    cat /proc/net/dev
    

    Receive----表示收包,
    Transmit----表示收包;
    bytes----表示收发的字节数;
    packets----表示收发正确的包量;
    errs----表示收发错误的包量;
    drop----表示收发丢弃的包量;

    (附:iostat扩展)

     iostat -d -x -k
    

    rrqm/s----每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);
    wrqm/s----每秒这个设备相关的写入请求有多少被Merge了
    rsec/s----每秒读取的扇区数;
    wsec/s----每秒写入的扇区数。
    rKB/s----每秒读数据;
    wKB/s----每秒写数据;
    avgrq-sz----平均请求扇区的大小;
    avgqu-sz----是平均请求队列的长度。毫无疑问,队列长度越短越好;
    await----每一个IO请求的处理的平均时间(单位是微秒毫秒)。这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。这个时间包括了队列时间和服务时间,也就是说,一般情况,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题;
    svctm----表示平均每次设备I/O操作的服务时间(以毫秒为单位);如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢;
    %util----在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度;一般,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈);

    相关文章

      网友评论

        本文标题:系统监控和业务监控

        本文链接:https://www.haomeiwen.com/subject/casdextx.html