Amazon CloudWatch Metrics für die Überwachung und Analyse von Schulungsaufträgen

Ein SageMaker Amazon-Schulungsjob ist ein iterativer Prozess, der einem Modell beibringt, Vorhersagen zu treffen, indem Beispiele aus einem Trainingsdatensatz präsentiert werden. In der Regel berechnet ein Trainingsalgorithmus mehrere Metriken, wie z. B. Trainingsfehler und Voraussagegenauigkeit. Diese Metriken helfen, zu diagnostizieren, ob das Modell gut lernt und bezüglich des Treffens von Voraussagen anhand von ungesehenen Daten eine gute Leistung bringen wird. Der Trainingsalgorithmus schreibt die Werte dieser Metriken in Protokolle, die SageMaker KI überwacht und CloudWatch in Echtzeit an Amazon sendet. Um die Leistung Ihres Trainingsauftrags zu analysieren, können Sie diese Metriken in CloudWatch als Diagramme anzeigen. Wenn ein Trainingsauftrag abgeschlossen ist, können Sie eine Liste der Metrikwerte erhalten, die in seiner abschließenden Iteration berechnet werden, in dem Sie die Operation DescribeTrainingJob aufrufen.

Anmerkung

Amazon CloudWatch unterstützt hochauflösende benutzerdefinierte Metriken, und die beste Auflösung beträgt 1 Sekunde. Je feiner die Auflösung ist, desto kürzer ist jedoch die Lebensdauer der Messwerte. CloudWatch Für die Frequenzauflösung von 1 Sekunde sind die CloudWatch Metriken 3 Stunden lang verfügbar. Weitere Informationen zur Auflösung und Lebensdauer der CloudWatch Metriken finden Sie GetMetricStatisticsin der Amazon CloudWatch API-Referenz.

Tipp

Wenn Sie Ihr Trainingsjob mit einer feineren Auflösung bis zu einer Granularität von 100 Millisekunden (0,1 Sekunden) profilieren und die Trainingsmetriken unbegrenzt in Amazon S3 speichern möchten, um jederzeit benutzerdefinierte Analysen durchführen zu können, sollten Sie die Verwendung von Amazon Debugger in Betracht ziehen. SageMaker SageMaker Der Debugger bietet integrierte Regeln zur automatischen Erkennung häufiger Trainingsprobleme. Er erkennt Probleme mit der Nutzung von Hardwareressourcen (wie CPU, GPU und I/O Engpässe) und Probleme mit nicht konvergierenden Modellen (wie Überanpassung, verschwindende Gradienten und explodierende Tensoren). SageMaker Der Debugger bietet auch Visualisierungen über Studio Classic und seinen Profilerstellungsbericht. Weitere Informationen zu den Debugger-Visualisierungen finden Sie unter Exemplarische Vorgehensweise zum SageMaker Debugger Insights-Dashboard, Exemplarische Vorgehensweise zum Debugger-Profilerstellungsbericht und Analysieren von Daten mithilfe der Clientbibliothek. SMDebug

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden Sie SageMaker KI-verwaltete warme Pools

Definieren von Schulungsmetriken