Colete métricas de GPU NVIDIA
Você pode usar o atendente do CloudWatch para coletar métricas de GPU NVIDIA de servidores Linux. Para configurar, adicione uma seção nvidia_gpu
à seção metrics_collected
do arquivo de configuração do atendente do CloudWatch. Para obter mais informações, consulte Seção Linux.
Além disso, a instância deve ter um driver NVIDIA instalado. Os drivers NVIDIA estão pré-instalados em algumas imagens de máquina da Amazon (AMIs). Caso contrário, é possível instalar o driver manualmente. Para obter mais informações, consulte Instalação de drivers NVIDIA em instâncias Linux.
As seguintes métricas podem ser coletadas. Todas essas métricas são coletadas sem uma Unit
do CloudWatch, mas você pode especificar uma unidade para cada métrica adicionando um parâmetro ao arquivo de configuração do atendente CloudWatch. Para obter mais informações, consulte Seção Linux.
Métrica | Nome da métrica no CloudWatch | Descrição |
---|---|---|
|
|
A porcentagem de tempo do período amostral anterior durante a qual um ou mais kernals na GPU estavam sendo executados. |
|
|
A temperatura principal da GPU em graus Celsius. |
|
|
O último consumo de energia medido para toda a placa, em watts. |
|
|
A porcentagem de tempo do período de amostra anterior durante a qual a memória global (dispositivo) estava sendo lida ou gravada. |
|
|
A porcentagem da velocidade máxima do ventilador em que o ventilador do dispositivo deve funcionar atualmente. |
|
|
Memória total reportada, em MB. |
|
|
Memória utilizada, em MB. |
|
|
Memória livre, em MB. |
|
|
A geração de links atual. |
|
|
A largura do link atual. |
|
|
Número atual de sessões de codificador. |
|
|
A média móvel dos quadros de codificação por segundo. |
|
|
A média móvel da latência de codificação em microssegundos. |
|
|
A frequência atual do relógio gráfico (sombreador). |
|
|
A frequência atual do relógio Streaming Multiprocessor (SM – Multiprocessador de transmissão). |
|
|
A frequência atual do relógio de memória. |
|
|
A frequência atual dos relógios de vídeo (codificador e decodificador). |
Todas essas métricas são coletadas com as seguintes dimensões:
Dimensão | Descrição |
---|---|
|
Um identificador exclusivo da GPU neste servidor. Representa o índice NVIDIA Management Library (NVML – Biblioteca de gerenciamento NVIDIA) do dispositivo. |
|
O tipo de GPU. Por exemplo, |
|
A arquitetura do servidor. |