通过命令nvidia-smi用于监控和管理 NVIDIA GPU 的使用情况。以下是对其输出信息的详细解析,可帮助开发者更好地理解和利用 GPU 性能。

运行命令:

nvidia-smi

得到输出:
在这里插入图片描述

第一行:
   NVIDIA-SMI :版本号为 535.146.02
   Driver Version :驱动版本号为 535.146.02
   CUDA Version : 12.2 表示为可支持最高的CUDA版本

第二行GPU列表:
   GPU :表示GPU编号,从0开始
   Name : GPU 的型号名称为 NVIDIA GeForce RTX 4090
   Persistence-M :GPU 持久模式状态,On 或 Off两种状态,持久性模式决定了GPU初始化是否保持激活状态,开启后有助于避免GPU重复初始化,从而减少延迟。
   Fan :风扇转速(0%–100%),N/A表示没有风扇
   Temp :GPU 当前温度(单位:摄氏度)
   Perf :当前性能状态(P-State),取值范围为 P0(最高性能)到 P12(最低性能)
   Pwr:Usage/Cap :当前功耗与功率上限

   Bus-Id :GPU 在主机中的硬件地址(PCI-E 总线编号)
   Disp-A :当前 GPU 是否用于图形显示,On 或 Off
   Memory-Usage :GPU显存利用率

   Volatile GPU-Util :GPU利用率
   Uncorr. ECC :是否开启错误检查核纠错技术。N/A 表示这个 GPU 不支持 ECC 或者没有启用 ECC
   Compute M. : 计算模式,Default 表示默认的计算模式,可能会有其他模式如 Exclusive, Prohibited 等。
   MIG M. : MIG(多实例 GPU)模式状态。N/A 表示当前 GPU 不支持 MIG 模式

Processes列表:
   GPU :对应GPU编号
   GI ID :GPU 实例 ID,适用于支持 MIG 的 GPU。N/A 表示不使用 MIG 模式。
   CI ID :计算实例 ID,适用于 MIG 模式。N/A 表示没有使用 MIG 模式。
   PID :进程ID
   Type : 进程类型
   Process name :进程名称
   GPU Memory Usage :进程显存使用大小

关于显存和利用率:

一搬来说GPU使用率高的时候,显存使用率都会比较高。但是显存使用率高的时候,不一定GPU使用率也高

更多推荐