2019/07/20
对于多队列的网卡,可以将他的IRQ终端绑定到不同的CPU核上,以此来保证网卡的吞吐量[1][2];但文章[2]中也提到,对于这种情况,如果不同的终端分配之后,可能真正使用的应用程序不在同一个核上,甚至于不在同一个CPU上,这样的话,跨内存访问的情况更加严重。
当然,我还是觉得,目前我没有有效的手段来查看这部分的性能问题,除了那个从中断角度来查看相应的数值,就没有别的手段了,所以这里是不是还有别的方式来展现呢?
文章[3]主要提及了相应的收包性能,虽然跟我现在非常关心的发包性能不太一样,但他提供的思路是非常具有启发性的,同时后面必然也要考虑各种发包性能的问题。(注意,他这里的收发包都是基于直接系统调用)
(这个时间端我利用perf尝试来看看线上应用程序的性能,发现。。什么也看不出来,感觉还是没有找对目的)
首先,他利用了多核多队列的性能优势,分配多个队列(网卡)到不同的核上,同时包括numa方面的优化;最后对于多线程方面,采用多个线程共享一个socket的方式,实现了相应的性能提升。
晚上的时候,把这部分内容在具体的解释解释。
这部分, 我仔细想了想,是因为对于网卡发包的流程不理解造成的,所以今天又翻出了那本网络内核的书并查找一些资料来看,具体内容在另外一个文章《网卡收发包流程》
参考文献
[1]高并发、大流量网卡调优
[2]密集负载下的网卡中断负载均衡smp affinity及单队列RPS
[3]How to receive a million packets per second
网友评论