Monitore a utilização de recursos computacionais da AWS no Amazon SageMaker Studio Classic - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitore a utilização de recursos computacionais da AWS no Amazon SageMaker Studio Classic

Para monitorar a utilização dos recursos computacionais do seu trabalho de treinamento, use as ferramentas de monitoramento oferecidas pelo Amazon SageMaker Debugger.

Para qualquer tarefa de treinamento executada no SageMaker AI usando o SageMaker Python SDK, o Debugger coleta métricas básicas de utilização de recursos, como utilização da CPU, utilização da GPU, utilização da memória da GPU, rede e tempo de espera de E/S a cada 500 milissegundos. Para acessar o painel com as métricas de utilização de recursos de um trabalho de treinamento, simplesmente use a interface do usuário do SageMaker Debugger no SageMaker Studio Experiments.

As operações e etapas de aprendizado profundo podem operar em intervalos de milissegundos. Em comparação com as métricas do Amazon CloudWatch, que coletam métricas em intervalos de 1 segundo, o Debugger fornece maior granularidade nas métricas de utilização de recursos em intervalos de até 100 milissegundos (0,1 segundo), para que você possa se aprofundar nas métricas no nível de uma operação ou etapa.

Se quiser alterar o intervalo de tempo de coleta de métricas, você pode adicionar um parâmetro para a configuração de criação de perfil ao seu inicializador de tarefas de treinamento. Por exemplo, se você estiver usando o SageMaker AI Python SDK, precisará transmitir o parâmetro profiler_config ao criar um objeto estimador. Para saber como ajustar o intervalo de coleta da métrica de utilização de recursos, consulte Modelo de código para configurar um objeto estimador do SageMaker AI com os módulos Python do SageMaker Debugger no SageMaker AI Python SDK e, depois, Defina as configurações para a criação de perfil básico da utilização dos recursos do sistema.

Além disso, você pode adicionar ferramentas de detecção de problemas chamadas regras de criação de perfis integrados fornecidos pelo SageMaker Debugger. As regras de criação de perfis integrados executam análises em relação às métricas de utilização de recursos e detectam problemas de desempenho computacional. Para ter mais informações, consulte Usar regras de criação de perfil integradas gerenciadas pelo Amazon SageMaker Debugger. Você pode receber os resultados da análise de regras por meio da interface do usuário do SageMaker Debugger no SageMaker Studio Experiments ou no relatório de criação de perfil do SageMaker Debugger. Também é possível criar regras personalizadas de criação de perfil usando o SageMaker Python SDK.

Para saber mais sobre as funcionalidades de monitoramento fornecidas pelo SageMaker Debugger, consulte os tópicos a seguir.