As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas do Amazon CloudWatch para monitorar e analisar trabalhos de treinamento
Um trabalho de treinamento do Amazon SageMaker é um processo iterativo que ensina um modelo a fazer predições, apresentando exemplos de um conjunto de dados de treinamento. Normalmente, um algoritmo de treinamento calcula várias métricas, como erro de treinamento e precisão de predição. Essas métricas ajudam a diagnosticar se o modelo está aprendendo bem e generalizará bem para fazer predições sobre dados não vistos. O algoritmo de treinamento grava os valores dessas métricas em logs, as quais o SageMaker AI monitora e envia ao Amazon CloudWatch em tempo real. Para analisar o desempenho do seu trabalho de treinamento, você pode visualizar gráficos dessas métricas no CloudWatch. Quando um trabalho de treinamento estiver concluído, você também poderá obter uma lista dos valores de métrica que ele calcula em sua iteração final chamando a operação DescribeTrainingJob.
nota
O Amazon CloudWatch oferece apoio a métricas personalizadas de alta resolução e sua melhor resolução é de 1 segundo. No entanto, quanto melhor a resolução, menor a vida útil das métricas do CloudWatch. Para a resolução de frequência de 1 segundo, as métricas do CloudWatch ficam disponíveis por 3 horas. Para obter mais informações sobre a resolução e a vida útil das métricas do CloudWatch, consulte GetMetricStatistics na Amazon CloudWatch API Reference.
dica
Se você quiser traçar o perfil do seu trabalho de treinamento com uma resolução mais precisa de até 100 milissegundos (0,1 segundo) de granularidade e armazenar as métricas de treinamento indefinidamente no Amazon S3 para análise personalizada a qualquer momento, considere usar o Amazon SageMaker Debugger. O SageMaker Debugger fornece regras incorporadas para detectar automaticamente problemas comuns de treinamento; ele detecta problemas de utilização de recursos de hardware (como gargalos de CPU, GPU e E/S) e problemas de modelos não convergentes (como sobreajuste, gradientes que desaparecem e tensores explosivos). O SageMaker Debugger também fornece visualizações por meio do Studio Classic e de seu relatório de criação de perfil. Para explorar as visualizações do Debugger, consulte Passo a passo do SageMaker Debugger, Passo a passo do relatório de perfilamento do depurador e Como analisar dados usando a biblioteca de cliente do SMDebug.