Colete métricas de GPU NVIDIA - Amazon CloudWatch

Colete métricas de GPU NVIDIA

Você pode usar o atendente do CloudWatch para coletar métricas de GPU NVIDIA de servidores Linux. Para configurar, adicione uma seção nvidia_gpu à seção metrics_collected do arquivo de configuração do atendente do CloudWatch. Para obter mais informações, consulte Seção Linux.

Além disso, a instância deve ter um driver NVIDIA instalado. Os drivers NVIDIA estão pré-instalados em algumas imagens de máquina da Amazon (AMIs). Caso contrário, é possível instalar o driver manualmente. Para obter mais informações, consulte Instalação de drivers NVIDIA em instâncias Linux.

As seguintes métricas podem ser coletadas. Todas essas métricas são coletadas sem uma Unit do CloudWatch, mas você pode especificar uma unidade para cada métrica adicionando um parâmetro ao arquivo de configuração do atendente CloudWatch. Para obter mais informações, consulte Seção Linux.

Métrica Nome da métrica no CloudWatch Descrição

utilization_gpu

nvidia_smi_utilization_gpu

A porcentagem de tempo do período amostral anterior durante a qual um ou mais kernals na GPU estavam sendo executados.

temperature_gpu

nvidia_smi_temperature_gpu

A temperatura principal da GPU em graus Celsius.

power_draw

nvidia_smi_power_draw

O último consumo de energia medido para toda a placa, em watts.

utilization_memory

nvidia_smi_utilization_memory

A porcentagem de tempo do período de amostra anterior durante a qual a memória global (dispositivo) estava sendo lida ou gravada.

fan_speed

nvidia_smi_fan_speed

A porcentagem da velocidade máxima do ventilador em que o ventilador do dispositivo deve funcionar atualmente.

memory_total

nvidia_smi_memory_total

Memória total reportada, em MB.

memory_used

nvidia_smi_memory_used

Memória utilizada, em MB.

memory_free

nvidia_smi_memory_free

Memória livre, em MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

A geração de links atual.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

A largura do link atual.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Número atual de sessões de codificador.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

A média móvel dos quadros de codificação por segundo.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

A média móvel da latência de codificação em microssegundos.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

A frequência atual do relógio gráfico (sombreador).

clocks_current_sm

nvidia_smi_clocks_current_sm

A frequência atual do relógio Streaming Multiprocessor (SM – Multiprocessador de transmissão).

clocks_current_memory

nvidia_smi_clocks_current_memory

A frequência atual do relógio de memória.

clocks_current_video

nvidia_smi_clocks_current_video

A frequência atual dos relógios de vídeo (codificador e decodificador).

Todas essas métricas são coletadas com as seguintes dimensões:

Dimensão Descrição

index

Um identificador exclusivo da GPU neste servidor. Representa o índice NVIDIA Management Library (NVML – Biblioteca de gerenciamento NVIDIA) do dispositivo.

name

O tipo de GPU. Por exemplo, NVIDIA Tesla A100

arch

A arquitetura do servidor.