Crie o perfil e otimize o desempenho computacional

Ao treinar modelos de aprendizado profundo de última geração que crescem rapidamente em tamanho, escalar o trabalho de treinamento desses modelos para um grande cluster de GPU e identificar problemas de desempenho computacional de bilhões e trilhões de operações e comunicações em cada iteração do processo de descida de gradiente torna-se um desafio.

SageMaker A IA fornece ferramentas de criação de perfil para visualizar e diagnosticar esses problemas complexos de computação decorrentes da execução de trabalhos de treinamento em recursos de computação em nuvem. AWS Há duas opções de criação de perfil que a SageMaker IA oferece: Amazon SageMaker Profiler e um monitor de utilização de recursos no Amazon Studio Classic. SageMaker Veja as seguintes introduções das duas funcionalidades para obter quick Insights e saber qual delas usar de acordo com suas necessidades:

Amazon SageMaker Profiler

O Amazon SageMaker Profiler é um recurso de criação de perfil de SageMaker IA com o qual você pode se aprofundar nos recursos computacionais provisionados enquanto treina modelos de aprendizado profundo e obter visibilidade dos detalhes no nível da operação. SageMaker O Profiler fornece módulos Python para adicionar anotações em PyTorch todos TensorFlow os scripts de treinamento e ativar o Profiler. SageMaker Você pode acessar os módulos por meio do SageMaker Python SDK e do AWS Deep Learning Containers.

Com o SageMaker Profiler, você pode rastrear todas as atividades em CPUs e GPUs, como utilizações de CPU e GPU, execuções de kernel em GPUs, inicializações de kernel em CPUs, operações de sincronização, operações de memória em CPUs e GPUs, latências entre inicializações de kernel e execuções correspondentes e transferência de dados entre CPUs e GPUs.

SageMaker O Profiler também oferece uma interface de usuário (UI) que visualiza o perfil, um resumo estatístico dos eventos perfilados e a linha do tempo de um trabalho de treinamento para rastrear e entender a relação temporal dos eventos entre GPUs e CPUs.

Para saber mais sobre o SageMaker Profiler, consulteAmazon SageMaker Profiler.

Monitoramento de recursos AWS computacionais no Amazon SageMaker Studio Classic

SageMaker A IA também fornece uma interface de usuário no Studio Classic para monitorar a utilização de recursos em alto nível, mas com mais granularidade em comparação com as métricas de utilização padrão coletadas da IA para. SageMaker CloudWatch

Para qualquer trabalho de treinamento executado em SageMaker IA usando o SDK do SageMaker Python, a SageMaker IA começa a traçar o perfil de métricas básicas de utilização de recursos, como utilização da CPU, utilização da GPU, utilização da memória da GPU, rede e tempo de espera. I/O Ele coleta essas métricas de utilização de recursos a cada 500 milissegundos.

Em comparação com CloudWatch as métricas da Amazon, que coletam métricas em intervalos de 1 segundo, a funcionalidade de monitoramento da SageMaker IA fornece maior granularidade nas métricas de utilização de recursos em intervalos de até 100 milissegundos (0,1 segundo), para que você possa se aprofundar nas métricas no nível de uma operação ou etapa.

Para acessar o painel para monitorar as métricas de utilização de recursos de um trabalho de treinamento, consulte a interface do SageMaker AI Debugger no Studio Experiments. SageMaker

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Notas da versão

SageMaker Perfilador