Monitoramento
A DLAMI vem pré-instalada com várias ferramentas de monitoramento de GPU. Este guia menciona também ferramentas que estão disponíveis para download e instalação.
-
Monitorar GPUs com o CloudWatch: um utilitário pré-instalado que relata estatísticas de uso de GPU para o Amazon CloudWatch.
-
CLI nvidia-smi
– um utilitário para monitorar a utilização geral de computação e memória de GPU. Isso é pré-instalado na AMIs de deep learning da AWS (DLAMI). -
Biblioteca NVML C
– uma API baseada em C para acessar diretamente funções de monitoramento e gerenciamento de GPU. Isso é usado pela CLI nvidia-smi nos bastidores e é pré-instalado na DLAMI. Também tem associações Python e Perl para facilitar o desenvolvimento nessas linguagens. O utilitário gpumon.py pré-instalado na DLAMI usa o pacote pynvml de nvidia-ml-py . -
NVIDIA DCGM
– uma ferramenta de gerenciamento de cluster. Visite a página do desenvolvedor para saber como instalar e configurar essa ferramenta.
dica
Confira o blog do desenvolvedor de NVIDIA para obter as informações mais recentes sobre como usar as ferramentas do CUDA instaladas na DLAMI: