Amazon-CloudWatch-Metriken zur Überwachung und Analyse von Trainingsjobs - Amazon SageMaker AI

Amazon-CloudWatch-Metriken zur Überwachung und Analyse von Trainingsjobs

Ein Amazon SageMaker-Trainingsauftrag ist ein iterativer Prozess, der einem Modell beibringt, Vorhersagen zu treffen, indem er Beispiele aus einem Trainingsdatensatz präsentiert. In der Regel berechnet ein Trainingsalgorithmus mehrere Metriken, wie z. B. Trainingsfehler und Voraussagegenauigkeit. Diese Metriken helfen, zu diagnostizieren, ob das Modell gut lernt und bezüglich des Treffens von Voraussagen anhand von ungesehenen Daten eine gute Leistung bringen wird. Der Trainingsalgorithmus schreibt die Werte dieser Metriken in Protokolle, die SageMaker AI überwacht und in Echtzeit an Amazon CloudWatch sendet. Um die Leistung Ihres Trainingsauftrags zu analysieren, können Sie in CloudWatch Diagramme zu diesen Metriken anzeigen. Wenn ein Trainingsauftrag abgeschlossen ist, können Sie eine Liste der Metrikwerte erhalten, die in seiner abschließenden Iteration berechnet werden, in dem Sie die Operation DescribeTrainingJob aufrufen.

Anmerkung

Amazon CloudWatch unterstützt hochauflösende benutzerdefinierte Metriken, und die beste Auflösung beträgt 1 Sekunde. Je feiner die Auflösung ist, desto kürzer ist jedoch die Lebensdauer der CloudWatch-Metriken. Für die Frequenzauflösung von 1 Sekunde sind die CloudWatch-Metriken 3 Stunden lang verfügbar. Weitere Informationen zur Auflösung und Lebensdauer der CloudWatch-Metriken finden Sie unter GetMetricStatistics in der Amazon CloudWatch-API-Referenz.

Tipp

Wenn Sie Ihr Trainingsjob mit einer feineren Auflösung bis zu einer Granularität von 100 Millisekunden (0,1 Sekunden) profilieren und die Trainingsmetriken unbegrenzt in Amazon S3 speichern möchten, um jederzeit benutzerdefinierte Analysen durchführen zu können, sollten Sie den Amazon SageMaker Debugger in Betracht ziehen. Der SageMaker Debugger bietet integrierte Regeln zur automatischen Erkennung häufiger Trainingsprobleme. Er erkennt Probleme mit der Nutzung von Hardwareressourcen (wie CPU-, GPU- und I/O-Engpässe) und Probleme mit nicht konvergierenden Modellen (wie Überanpassung, verschwindende Gradienten und explodierende Tensoren). SageMaker Debugger bietet auch Visualisierungen über Studio Classic und seinen Profilerstellungsbericht. Weitere Informationen zu den Debugger-Visualisierungen finden Sie unter SageMaker Debugger Insights Dashboard Walkthrough, Debugger Profiling Report Walkthrough und Analyze Data Using the SMDebug Client Library.