美文网首页
单机互联拓扑获取 - 软件方式

单机互联拓扑获取 - 软件方式

作者: MatrixOnEarth | 来源:发表于2022-02-17 15:44 被阅读0次

    @(System)[communication]

    姚伟峰

    NV GPU

    概况

    $ nvidia-smi
    

    如下是在某种机型上的输出示例:



    可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。

    物理连接拓扑

    $ nvidia-smi topo -m
    

    输出如下:


    1. 由CPU Affinity栏:
      8张GPU卡都是接到CPU socket 0上的,这是一个single root system;

    2. 由连接矩阵:

      • 由PIX信息可得,共有2个PCIe switch,其中GPU0-GPU3连在同一个PCIe switch上,GPU4-GPU7连在同一个PCIe switch上;
      • 由NODE信息可得,这两个PCIe switch连在同一个CPU的两个Root Complex下;

      交叉验证
      lspci -tv,从如下BDF(Bus, Device, Function)号可以看出,两个PCIe switch是attach给两个bus id的(分别是3a和17)。


      由bus的cat /sys/class/pci_bus/0000:17/cpulistaffinity命令也可cross check。

    进一步地,GPU PCIe spec可使用nvidia-smi -q获得:

    可知该机型V100卡使用PCIe 3.0 x16接口。

    综合可得,物理连接拓扑为:


    Reference

    1. 4U GPU System - PCIe Root Architectures
    2. NCCL: Accelerated Multi-GPU Collective Communications
    3. 原来PCIe这么简单,一定要看!
    4. Interpreting PCIe Device to CPU Locality Information
    5. nvidia-smi topo SOC
    6. Intro to PCIe
    7. Fast Multi-GPU communication over PCI Express

    相关文章

      网友评论

          本文标题:单机互联拓扑获取 - 软件方式

          本文链接:https://www.haomeiwen.com/subject/wsrslrtx.html