Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Métricas de Amazon CloudWatch para supervisar y analizar trabajos de entrenamiento
Un trabajo de entrenamiento de Amazon SageMaker es un proceso iterativo que enseña a un modelo a realizar predicciones mediante la presentación de ejemplos de un conjunto de datos de entrenamiento. Normalmente, un algoritmo de entrenamiento calcula varias métricas, como, por ejemplo, error de entrenamiento y precisión de predicción. Estas métricas ayudan a diagnosticar si el modelo aprende bien y si generalizará bien a fin de realizar predicciones sobre datos no vistos anteriormente. El algoritmo de entrenamiento escribe los valores de estas métricas en registros, que SageMaker AI monitoriza y envía a Amazon CloudWatch en tiempo real. Para analizar el rendimiento de su trabajo de entrenamiento, puede ver gráficos de estas métricas en CloudWatch. Cuando se ha completado un trabajo de entrenamiento, también puede obtener una lista de los valores de las métricas que calcula en su última iteración llamando a la operación DescribeTrainingJob.
nota
Amazon CloudWatch admite métricas personalizadas de alta resolución y su resolución más precisa es de 1 segundo. Sin embargo, cuanto más precisa sea la resolución, menor será la vida útil de las métricas de CloudWatch. Para la resolución de frecuencia de 1 segundo, las métricas de CloudWatch están disponibles durante tres horas. Para obtener más información sobre la resolución y la duración de las métricas de CloudWatch, consulte GetMetricStatistics en la Referencia de la API de Amazon CloudWatch.
sugerencia
Si desea elaborar perfiles de su trabajo de entrenamiento con una resolución más precisa —granularidad de hasta 100 milisegundos (0,1 segundos) y almacenamiento indefinido de las métricas de entrenamiento en Amazon S3 a fin de poder analizarlas en cualquier momento—, considere la posibilidad de utilizar el depurador de Amazon SageMaker. El depurador de SageMaker proporciona reglas integradas para detectar automáticamente los problemas de entrenamiento más habituales; detecta los problemas de utilización de recursos de hardware (como los cuellos de botella de la CPU, la GPU y la E/S) y los problemas de modelos no convergentes (como el sobreajuste, la desaparición de los gradientes y la explosión de los tensores). El depurador de SageMaker también proporciona visualizaciones a través de Studio Classic y su informe de creación de perfiles. Para explorar las visualizaciones del depurador, consulte SageMaker Debugger Insights Dashboard Walkthrough, Debugger Profiling Report Walkthrough y Analyze Data Using the SMDebug Client Library.