As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie o perfil e otimize o desempenho computacional
Ao treinar modelos de aprendizado profundo de última geração que crescem rapidamente em tamanho, escalar o trabalho de treinamento desses modelos para um grande cluster de GPU e identificar problemas de desempenho computacional de bilhões e trilhões de operações e comunicações em cada iteração do processo de descida de gradiente torna-se um desafio.
O SageMaker AI oferece ferramentas de criação de perfil para visualizar e diagnosticar esses problemas complexos de computação decorrentes da execução de tarefas de treinamento em recursos de computação em nuvem da AWS. O SageMaker AI oferece duas opções de criação de perfil: o Amazon SageMaker Profiler e um monitor de utilização de recursos no Amazon SageMaker Studio Classic. Veja as seguintes introduções das duas funcionalidades para obter quick Insights e saber qual delas usar de acordo com suas necessidades:
Amazon SageMaker Profiler
O Amazon SageMaker Profiler é um recurso de criação de perfil do SageMaker AI com o qual você pode se aprofundar nos recursos de computação provisionados enquanto treina modelos de aprendizado profundo e obter visibilidade dos detalhes em nível operacional. O SageMaker Profiler fornece módulos Python para adicionar anotações em todos os scripts de treinamento do PyTorch ou do TensorFlow e ativar o SageMaker Profiler. Você pode acessar os módulos por meio do SageMaker Python SDK e dos contêineres de aprendizado profundo da AWS.
Com o SageMaker Profiler, você pode monitorar todas as atividades em CPUs e GPUs, como utilizações de CPU e GPU, execuções de kernel em GPUs, inicializações de kernel em CPUs, operações de sincronização, operações de memória entre CPUs e GPUs, latências entre inicializações do kernel e execuções correspondentes, além da transferência de dados entre CPUs e GPUs.
O SageMaker Profiler também oferece uma interface de usuário (UI) que visualiza o perfil, um resumo estatístico dos eventos perfilados e a linha do tempo de um trabalho de treinamento para rastrear e entender a relação temporal dos eventos entre GPUs e CPUs.
Para saber mais sobre o SageMaker Profiler, consulte Amazon SageMaker Profiler.
Monitoramento de recursos computacionais da AWS no Amazon SageMaker Studio Classic
O SageMaker AI também oferece uma interface de usuário no Studio Classic para monitorar a utilização de recursos de maneira geral, mas com maior granularidade em comparação com as métricas de utilização padrão coletadas do SageMaker AI para o CloudWatch.
Para qualquer tarefa de treinamento executada no SageMaker AI usando o SageMaker Python SDK, o SageMaker AI inicia a criação de perfil das métricas básicas de utilização de recursos, como utilização de CPU, utilização de GPU, utilização de memória da GPU, rede e tempo de espera de E/S. Ele coleta essas métricas de utilização de recursos a cada 500 milissegundos.
Em comparação com as métricas do Amazon CloudWatch, que coletam métricas em intervalos de 1 segundo, a funcionalidade de monitoramento do SageMaker oferece maior granularidade nas métricas de utilização de recursos em intervalos de até 100 milissegundos (0,1 segundo), para que você possa se aprofundar nas métricas em nível de operação ou etapa.
Para acessar o painel para monitorar as métricas de utilização de recursos de uma tarefa de treinamento, consulte SageMaker AI Debugger UI in SageMaker Studio Experiments.