1、日常监控工作中,最常出现的故障或异常有:
请求超时、应用假死、数据库超时
磁盘空间不足
unavailable by ICMP,IP不通
内存故障,负载高
监控图形有断图情况
2、以上故障或异常会出现的原因:
超时排查网络,看看有没网络异常
具体排查特定的应用有没异常,如假死,数据库超时等
日志等写满了,未及时清理
网络故障或机器宕机。
内存有问题、内存槽有问题,内存是否有泄露的情况
检查是否有异常进程占用CPU或磁盘IO过慢的情况
3、针对以上的故障或异常,是如何解决的? 补充:如何判断故障是系统问题还是硬件问题
使用ping,route,ss,nslookup,tcpdump分析网络网络状态,分析网络故障
使用ls,df,find,lsof等工具可以查找占用磁盘的答文件,分析文件过大的原因
使用特定的命令对特定的服务进行故障分析,如使用curl分析Web服务器故障
使用ps,top等命令分析进程,杀死异常进程
分析是否监控服务器的数据量,可以考虑使用主动监控或分布式监控解决
网友评论