现象:
1、在用户空间收包打印,用NT发少量包,可以正常收包,一旦发包数量多了,系统挂住,奔溃。。
2、用户空间没有收包,内核一旦收包无法发送到用户空间,系统挂住,奔溃。。
主要log:
[ 344.442828] BUG: unable to handle kernel NULL pointer dereference at 000000000000037f
[ 344.453301] IP: [<ffffffff811a6ff5>] __kmalloc+0x95/0x250
[ 344.461283] PGD ab390067 PUD ab3e3067 PMD 0
[ 344.468183] Oops: 0000 [#2] SMP
[ 344.473998] Modules linked in: sdn_fpga(OX) fpga_dma(OX) dmauio(OX) rgsk(OX) r8152(OX) uio ip6table_filter ip6_tables iptable_filter ip_tables x_tables rfcomm bnep bluetooth r815x cdc_ether usbnet mii intel_rapl coretemp kvm_intel kvm crct10dif_pclmul crc32_pclmul ghash_clmulni_intel cryptd serio_raw i915_bdw intel_ips video drm_kms_helper mac_hid drm shpchp i2c_algo_bit parport_pc ppdev lp parport psmouse ahci libahci
[ 344.522593] CPU: 3 PID: 1659 Comm: bash Tainted: G D OX 3.13.0-109-generic #156-Ubuntu
[ 344.533769] Hardware name: J&W IPC IS-200N/IS-200N, BIOS 5.6.5 10/24/2016
[ 344.543117] task: ffff880000086000 ti: ffff8800ae976000 task.ti: ffff8800ae976000
[ 344.553159] RIP: 0010:[<ffffffff811a6ff5>] [<ffffffff811a6ff5>] __kmalloc+0x95/0x250
[ 344.563584] RSP: 0018:ffff8800ae977d78 EFLAGS: 00010286
[ 344.571439] RAX: 0000000000000000 RBX: ffff8801380bba80 RCX: 000000000000912a
[ 344.581130] RDX: 0000000000009129 RSI: 0000000000000000 RDI: 00000000000001f7
[ 344.590821] RBP: ffff8800ae977da8 R08: 0000000000015fc0 R09: ffffffff8121a3b2
[ 344.600522] R10: ffff88013b001600 R11: 0000000000000007 R12: 00000000000000d0
[ 344.610218] R13: 000000000000037f R14: 00000000000001f8 R15: ffff88013b001600
[ 344.619914] FS: 00007f4d41e62740(0000) GS:ffff88013fd80000(0000) knlGS:0000000000000000
[ 344.630581] CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
[ 347.595913] BUG: Bad rss-counter state mm:ffff8800afb7e300 idx:1 val:2
分析过程:
1、首先问题都是出现在收包时,所以将bug初步定位在内核收包函数;
2、根据上述bug信息,问题出在对空指针进行操作,所以着重在收包函数中kmalloc和kfree;
3、将内核收包后将报文内容发送到用户空间的代码注释掉,发现bug不再出现,因此确定bug在内核发送报文到用户空间的函数内;
4、用户空间接收到很多报文时,系统就奔溃,因此用户空间应该也有bug存在,走读用户空间代码,发现每次malloc后都没有释放
分析结果:
1、用户空间收包地方,每次收包前都会malloc一个指针,收包处理完,没有释放;
2、内核收包(thread_dma_recv_pkt)无法往用户空间发送时(sdn_fpga_send_data),程序跳转到err,此时nlmsg_free(skb);而在thread_dma_recv_pkt函数中,又有kfree(skb),造成释放空指针。
解决方法:
1、用户空间每次收包处理完,释放指针;
2、内核空间:将nlmsg_free(skb)注释
网友评论