nvidia-smi 快速入门

nvidia-smi 是 NVIDIA 驱动提供的命令行工具,能够帮助用户监控和管理 GPU 的状态与行为。本文整理了一些常用的 nvidia-smi 命令,帮助大家快速上手和高效使用。

1. 显示 GPU 基本信息

使用最常见的 nvidia-smi 命令可以展示所有 GPU 的概览信息,包括每块 GPU 的利用率、显存使用情况、风扇速度和温度等。



| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       On  | 00000000:81:00.0 Off |                    0 |
| N/A   40C    P8              10W /  70W |      2MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |

| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|  No running processes found                                                           |

2. 显示 GPU 型号信息

如果我们要获取显卡型号信息,可以使用 -L 参数:

nvidia-smi -L
GPU 0: Tesla T4 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxx)

3. 显示 GPU 详细信息

如果我们需要获取更详细的信息,可以使用 -q 参数。这会展示每个 GPU 的所有硬件细节,包括温度、电源使用情况、性能状态等。

nvidia-smi -q


==============NVSMI LOG==============

Timestamp                                 : Thu Sep 26 19:11:30 2024
Driver Version                            : 535.183.01
CUDA Version                              : 12.2

Attached GPUs                             : 1
GPU 00000000:81:00.0
    Product Name                          : Tesla T4
    Product Brand                         : NVIDIA
    Product Architecture                  : Turing
    Display Mode                          : Enabled
    Display Active                        : Disabled
    Persistence Mode                      : Enabled

4. 查看特定 GPU

当系统中有多块 GPU 时,我们可以使用 -i 参数指定查看某块 GPU 的信息。例如,查看 ID 为 0 的 GPU:

nvidia-smi -i 0

输出仅限于指定的 GPU 设备。

5. 监控整体 GPU 使用情况

我们可以通过如下命令查看当前 GPU 资源整体使用情况。

nvidia-smi dmon -i 0 -d 2
#-i 0: 指定 GPU 的索引号,这里是索引为 0 的 GPU。
#-d 2: 设置采样间隔(采样频率),单位为秒,这里是每 2 秒采样一次。
# gpu    pwr  gtemp  mtemp     sm    mem    enc    dec    jpg    ofa   mclk   pclk
# Idx      W      C      C      %      %      %      %      %      %    MHz    MHz
    0     15     41      -      0      0      0      0      0      0    405    300
    0     15     41      -      0      0      0      0      0      0    405    300
    0     15     40      -      0      0      0      0      0      0    405    300

#GPU 的索引号是 0。
#功耗是 15 瓦。
#GPU 温度是 41 摄氏度。
#显存温度没有显示(用 - 表示)。
#Streaming Multiprocessor 的利用率是 0%。
#显存利用率是 0%。
#视频编码引擎利用率是 0%。
#视频解码引擎利用率是 0%。
#JPEG 引擎利用率是 0%。
#Optical Flow Accelerator 的利用率是 0%。
#显存时钟频率是 405 MHz。
#GPU 核心时钟频率是 300 MHz。

6. 查看与 GPU 交互的进程

可以通过以下命令查看当前使用 GPU 资源的进程。默认情况下,它只会显示与 GPU 计算资源交互的进程。

nvidia-smi pmon -i 0


# gpu        pid  type    sm   mem   enc   dec   command
# Idx         #   C/G     %     %     %     %   name
    0      2635     C     0     0     0     0   python

#gpu (Idx): GPU 的索引号。
#pid (#): 进程的进程 ID(PID)。
#type (C/G): 进程类型,C 代表计算进程,G 代表图形进程。
#sm (%): Streaming Multiprocessor 的利用率百分比。
#mem (%): 显存带宽利用率百分比。
#enc (%): 视频编码引擎利用率百分比。
#dec (%): 视频解码引擎利用率百分比。
#command (name): 进程的命令名称。

7. 实时刷新 GPU 信息

我们可以使用 -l 参数让 nvidia-smi 命令每隔固定时间刷新一次 GPU 状态。如下命令每 5 秒刷新一次:

nvidia-smi -l 5

这是一个很好的工具,用于实时监控 GPU 资源的使用。

8. 限制 GPU 的功耗

为了在使用 GPU 时更好地控制功耗,可以设置一个功耗限制。如下命令将 GPU 的最大功耗限制在 70 瓦以内:

nvidia-smi -i 0 -pl 70

请注意,功耗限制只能在指定的范围内设置,不同的 GPU 设备支持不同的功耗范围。

9. 清除已发生的错误记录

如果 GPU 上曾发生过错误(如 XID 错误),可以使用以下命令清除这些错误记录:

nvidia-smi --clear-gpu-errors

这是在调试和监控过程中保持 GPU 状态清晰的一个好方法。

10. 查看驱动版本

可以通过查询功能,查看每块 GPU 的驱动版本。命令输出的格式为 CSV 格式,便于后续处理:

nvidia-smi --query-gpu=driver_version --format=csv



11. 查看显存使用情况

此命令可以显示每块 GPU 的显存总量、已用显存和可用显存:

nvidia-smi,memory.used, --format=csv

输出示例: [MiB], memory.used [MiB], [MiB]
15109 MiB, 0 MiB, 15109 MiB

12. 设置 GPU 计算模式

可以为 GPU 设置不同的计算模式,以控制进程对 GPU 资源的访问权限。常用的计算模式包括:

  • 0:默认模式,所有进程均可使用 GPU;
  • 1:仅计算进程模式,只有计算任务可以使用 GPU;
  • 2:禁止模式,新的进程无法访问 GPU。

例如,将 GPU 0 设置为仅计算进程模式:

nvidia-smi -i 0 -c 1


