美文网首页
linux线上程序问题调试命令

linux线上程序问题调试命令

作者: 凯文不上班 | 来源:发表于2018-12-29 15:23 被阅读0次

    前提:
    ps -ef | grep xxxx 获取进程的pid以及端口
    lsof -i:8080 | grep ES 根据进程端口号查看建立的所有连接,这个针对别人连过来的可以,但是不方便看自己连别人的
    sudo lsof -p 21449 -nP | grep TCP 根据进程pid查看建立的所有连接,包括了自己连别人与别人连自己的所有连接

    1.跟踪线上进程的系统调用

    案例:sudo strace -t -T -v -f -p 41398
    [pid 41424] 14:47:02 <... read resumed> "HTTP/1.1 200 OK\r\nServer: nginx/1"..., 4096) = 186 <0.000024>
    [pid 41413] 14:47:02 getsockname(61, <unfinished ...>
    [pid 41412] 14:47:02 read(178, <unfinished ...>
    [pid 41402] 14:47:02 futex(0xc420040d48, FUTEX_WAIT, 0, NULL <unfinished ...>
    [pid 41424] 14:47:02 write(1, "extinterface|2018-12-29 14:47:02"..., 373 <unfinished ...>
    [pid 41413] 14:47:02 <... getsockname resumed> {sa_family=AF_INET, sin_port=htons(17784), sin_addr=inet_addr("100.96.94.74")}, [16]) = 0 <0.000122>
    [pid 41412] 14:47:02 <... read resumed> 0xc420321000, 4096) = -1 EAGAIN (Resource temporarily unavailable) <0.000133>
    [pid 41424] 14:47:02 <... write resumed> ) = 373 <0.000039>
    [pid 41413] 14:47:02 getpeername(61, <unfinished ...>
    [pid 41412] 14:47:02 getsockopt(41, SOL_SOCKET, SO_ERROR <unfinished ...>
    [pid 41424] 14:47:02 write(4, "extinterface|2018-12-29 14:47:02"..., 372 <unfinished ...>
    [pid 41413] 14:47:02 <... getpeername resumed> {sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("10.219.7.37")}, [16]) = 0 <0.000043>
    [pid 41424] 14:47:02 <... write resumed> ) = 372 <0.000027>
    [pid 41412] 14:47:02 <... getsockopt resumed> , [2337776331577622528], [4]) = 0 <0.000066>
    [pid 41413] 14:47:02 write(61, "\375\367\1\0\0\1\0\0\0\0\0\0\4msdk\rtencent-cloud\3"..., 40 <unfinished ...>
    [pid 41425] 14:47:02 write(1, "wx auth result : &{Ret:0 Msg:ok}"..., 33 <unfinished ...>
    [pid 41424] 14:47:02 read(18, <unfinished ...>
    [pid 41412] 14:47:02 getpeername(41, <unfinished ...>
    [pid 41400] 14:47:02 <... pselect6 resumed> ) = 0 (Timeout) <0.000431>
    [pid 41425] 14:47:02 <... write resumed> ) = 33 <0.031962>
    [pid 41424] 14:47:02 <... read resumed> 0xc4208ac000, 4096) = -1 EAGAIN (Resource temporarily unavailable) <0.031990>
    [pid 41413] 14:47:02 <... write resumed> ) = 40 <0.032038>
    [pid 41412] 14:47:02 <... getpeername resumed> {sa_family=AF_INET, sin_port=htons(80), sin_addr=inet_addr("10.217.105.104")}, [16]) = 0 <0.032005>
    [pid 41425] 14:47:02 write(176, "*1\r\n$4\r\nPING\r\n", 14 <unfinished ...>

    根据这些可以查看系统调用的完整性,比如说服务器连接数一直涨,说明fd没有close,close调用在上边有缺失
    strace -t -T -v -f -p 16705 -Te write 只看write系统调用

    2.线上进程coredump调试

    sudo gcore xxpid 生成dump文件
    sudo dlv core binfile core.xxxx 调试coredump文件,查看调用栈、goroutines

    3.进程级别、系统级别异常

    查看系统级别日志 /var/log/messages
    messages 日志是核心系统日志文件。它包含了系统启动时的引导消息,以及系统运行时的其他状态消息。IO 错误、网络错误和其他系统错误都会记录到这个文件中。其他信息,比如某个人的身份切换为 root,也在这里列出。如果服务正在运行,比如 DHCP 服务器,您可以在 messages 文件中观察它的活动。通常,/var/log/messages 是您在做故障诊断时首先要查看的文件。

    4.tcpdump抓包

    tcpdump -i lo -nnA 'port 7076' and 'tcp[13] & 4 != 0 ' 抓rst包,发送给7076端口或者是7076端口发出去的
    mac osx系统:sudo tcpdump -i lo0 -nnA 'port 3000'

    5.快速搜索目录下的文件中包含的关键字内容

    • 搜索当前目录下所有文件中包含25593516关键字的行:grep "25593516" ./* | more

    相关文章

      网友评论

          本文标题:linux线上程序问题调试命令

          本文链接:https://www.haomeiwen.com/subject/vczulqtx.html