美文网首页
单机互联拓扑获取 - 软件方式

单机互联拓扑获取 - 软件方式

作者: MatrixOnEarth | 来源:发表于2022-02-17 15:44 被阅读0次

@(System)[communication]

姚伟峰

NV GPU

概况

$ nvidia-smi

如下是在某种机型上的输出示例:



可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。

物理连接拓扑

$ nvidia-smi topo -m

输出如下:


  1. 由CPU Affinity栏:
    8张GPU卡都是接到CPU socket 0上的,这是一个single root system;

  2. 由连接矩阵:

    • 由PIX信息可得,共有2个PCIe switch,其中GPU0-GPU3连在同一个PCIe switch上,GPU4-GPU7连在同一个PCIe switch上;
    • 由NODE信息可得,这两个PCIe switch连在同一个CPU的两个Root Complex下;

    交叉验证
    lspci -tv,从如下BDF(Bus, Device, Function)号可以看出,两个PCIe switch是attach给两个bus id的(分别是3a和17)。


    由bus的cat /sys/class/pci_bus/0000:17/cpulistaffinity命令也可cross check。

进一步地,GPU PCIe spec可使用nvidia-smi -q获得:

可知该机型V100卡使用PCIe 3.0 x16接口。

综合可得,物理连接拓扑为:


Reference

  1. 4U GPU System - PCIe Root Architectures
  2. NCCL: Accelerated Multi-GPU Collective Communications
  3. 原来PCIe这么简单,一定要看!
  4. Interpreting PCIe Device to CPU Locality Information
  5. nvidia-smi topo SOC
  6. Intro to PCIe
  7. Fast Multi-GPU communication over PCI Express

相关文章

网友评论

      本文标题:单机互联拓扑获取 - 软件方式

      本文链接:https://www.haomeiwen.com/subject/wsrslrtx.html