

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Amazon CloudWatch Metrics für die Überwachung und Analyse von Schulungsaufträgen
<a name="training-metrics"></a>

Ein SageMaker Amazon-Schulungsjob ist ein iterativer Prozess, der einem Modell beibringt, Vorhersagen zu treffen, indem Beispiele aus einem Trainingsdatensatz präsentiert werden. In der Regel berechnet ein Trainingsalgorithmus mehrere Metriken, wie z. B. Trainingsfehler und Voraussagegenauigkeit. Diese Metriken helfen, zu diagnostizieren, ob das Modell gut lernt und bezüglich des Treffens von Voraussagen anhand von ungesehenen Daten eine gute Leistung bringen wird. Der Trainingsalgorithmus schreibt die Werte dieser Metriken in Protokolle, die SageMaker KI überwacht und CloudWatch in Echtzeit an Amazon sendet. Um die Leistung Ihres Trainingsauftrags zu analysieren, können Sie diese Metriken in CloudWatch als Diagramme anzeigen. Wenn ein Trainingsauftrag abgeschlossen ist, können Sie eine Liste der Metrikwerte erhalten, die in seiner abschließenden Iteration berechnet werden, in dem Sie die Operation [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) aufrufen.

**Anmerkung**  
Amazon CloudWatch unterstützt [hochauflösende benutzerdefinierte Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html), und die beste Auflösung beträgt 1 Sekunde. Je feiner die Auflösung ist, desto kürzer ist jedoch die Lebensdauer der Messwerte. CloudWatch Für die Frequenzauflösung von 1 Sekunde sind die CloudWatch Metriken 3 Stunden lang verfügbar. Weitere Informationen zur Auflösung und Lebensdauer der CloudWatch Metriken finden Sie [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)in der *Amazon CloudWatch API-Referenz.* 

**Tipp**  
[Wenn Sie Ihr Trainingsjob mit einer feineren Auflösung bis zu einer Granularität von 100 Millisekunden (0,1 Sekunden) profilieren und die Trainingsmetriken unbegrenzt in Amazon S3 speichern möchten, um jederzeit benutzerdefinierte Analysen durchführen zu können, sollten Sie die Verwendung von Amazon Debugger in Betracht ziehen. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html) SageMaker Der Debugger bietet integrierte Regeln zur automatischen Erkennung häufiger Trainingsprobleme. Er erkennt Probleme mit der Nutzung von Hardwareressourcen (wie CPU, GPU und I/O Engpässe) und Probleme mit nicht konvergierenden Modellen (wie Überanpassung, verschwindende Gradienten und explodierende Tensoren). SageMaker Der Debugger bietet auch Visualisierungen über Studio Classic und seinen Profilerstellungsbericht. [Weitere Informationen zu den Debugger-Visualisierungen finden Sie unter Exemplarische Vorgehensweise zum [SageMaker Debugger Insights-Dashboard, Exemplarische Vorgehensweise zum Debugger-Profilerstellungsbericht und Analysieren von Daten mithilfe](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights-walkthrough.htm)[der Clientbibliothek](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-profiling-report.html#debugger-profiling-report-walkthrough). SMDebug ](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)

**Topics**
+ [Definieren von Schulungsmetriken](define-train-metrics.md)
+ [Anzeigen von Trainingsjob-Metriken](view-train-metrics.md)
+ [Beispiel: Anzeigen einer Trainings- und Validierungskurve](train-valid-curve.md)

# Definieren von Schulungsmetriken
<a name="define-train-metrics"></a>

SageMaker KI analysiert automatisch die Protokolle von Trainingsaufträgen und sendet Trainingsmetriken an CloudWatch. Standardmäßig sendet SageMaker KI Kennzahlen zur Systemressourcenauslastung, die unter [SageMaker KI-Jobs und Endpunktmetriken](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs) aufgeführt sind. Wenn Sie möchten, dass SageMaker KI Protokolle analysiert und benutzerdefinierte Metriken aus einem Trainingsjob Ihres eigenen Algorithmus an sie sendet CloudWatch, müssen Sie bei der Konfiguration einer SageMaker KI-Schulungsjobanfrage Metrikdefinitionen angeben, indem Sie die Namen der Metriken und reguläre Ausdrücke übergeben.

Sie können die Metriken, die Sie verfolgen möchten, mithilfe der SageMaker AI-Konsole, des [SageMaker KI-Python-SDK](https://github.com/aws/sagemaker-python-sdk) oder der SageMaker Low-Level-KI-API angeben.

Wenn Sie Ihren eigenen Algorithmus verwenden, gehen Sie wie folgt vor:
+ Vergewissern Sie sich, dass der Algorithmus die Metriken, die Sie erfassen möchten, in Protokolle schreibt.
+ Definieren Sie einen regulären Ausdruck, der die Protokolle genau durchsucht, um die Werte der Metriken zu erfassen, an die Sie senden möchten CloudWatch.

Nehmen wir zum Beispiel an, dass Ihr Algorithmus die folgenden Metriken für Trainingsfehler und Validierungsfehler ausgibt:

```
Train_error=0.138318;  Valid_error=0.324557;
```

Wenn Sie diese beiden Metriken überwachen möchten CloudWatch, sollte das Wörterbuch für die Metrikdefinitionen wie das folgende Beispiel aussehen:

```
[
    {
        "Name": "train:error",
        "Regex": "Train_error=(.*?);"
    },
    {
        "Name": "validation:error",
        "Regex": "Valid_error=(.*?);"
    }    
]
```

In der Regex für die `train:error` -Metrik, die im vorangegangenen Beispiel definiert wurde, findet der erste Teil der Regex den genauen Text "Train\$1error=", und der Ausdruck `(.*?);` erfasst alle Zeichen bis zum ersten Semikolonzeichen. In diesem Ausdruck sagt die Klammer dem Regex, dass er das, was sich in ihr befindet, erfassen soll, `.` bedeutet jedes beliebige Zeichen, `*` bedeutet kein oder mehr Zeichen und `?` bedeutet die Erfassung nur bis zur ersten Abfolge des `;`-Zeichens.

## Definieren Sie Metriken mit dem SageMaker AI Python SDK
<a name="define-train-metrics-sdk"></a>

Definieren Sie die Metriken, an die Sie senden möchten, CloudWatch indem Sie bei der Initialisierung eines `Estimator` Objekts eine Liste von Metriknamen und regulären Ausdrücken als `metric_definitions` Argument angeben. Wenn Sie beispielsweise sowohl die als auch die `train:error` `validation:error` Metriken in überwachen möchten CloudWatch, würde Ihre `Estimator` Initialisierung wie folgt aussehen:

```
import sagemaker
from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri="your-own-image-uri",
    role=sagemaker.get_execution_role(), 
    sagemaker_session=sagemaker.Session(),
    instance_count=1,
    instance_type='ml.c4.xlarge',
    metric_definitions=[
       {'Name': 'train:error', 'Regex': 'Train_error=(.*?);'},
       {'Name': 'validation:error', 'Regex': 'Valid_error=(.*?);'}
    ]
)
```

Weitere Informationen zum Training mithilfe von [Amazon SageMaker Python SDK-Schätzern finden Sie unter [Sagemaker Python](https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview) SDK](https://sagemaker.readthedocs.io/en/stable) on. GitHub 

## Definieren Sie Metriken mithilfe der AI-Konsole SageMaker
<a name="define-train-metrics-console"></a>

Wenn Sie bei der Erstellung eines Trainingsjobs die Option **Ihr eigener Algorithmuscontainer in ECR** als Algorithmusquelle in der SageMaker AI-Konsole wählen, fügen Sie die Metrikdefinitionen im Abschnitt **Metriken** hinzu. Der folgende Screenshot zeigt, wie es aussehen sollte, nachdem Sie die Namen der Beispielmetriken und die entsprechenden regulären Ausdrücke hinzugefügt haben.

![\[Beispiel für ein Formular mit Algorithmusoptionen in der Konsole\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/training-metrics-using-smconsole.png)


## Definieren Sie Metriken mithilfe der Low-Level-KI-API SageMaker
<a name="define-train-metrics-api"></a>

Definieren Sie die Metriken, an die Sie senden möchten, CloudWatch indem Sie im `MetricDefinitions` Feld des [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AlgorithmSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AlgorithmSpecification.html)Eingabeparameters, den Sie an den [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)Vorgang übergeben, eine Liste mit Metriknamen und regulären Ausdrücken angeben. Wenn Sie beispielsweise sowohl die als auch die `train:error` `validation:error` Metriken in überwachen möchten CloudWatch, `AlgorithmSpecification` würden Sie wie folgt aussehen:

```
"AlgorithmSpecification": {
    "TrainingImage": your-own-image-uri,
    "TrainingInputMode": "File",
    "MetricDefinitions" : [
        {
            "Name": "train:error",
            "Regex": "Train_error=(.*?);"
        },
        {
            "Name": "validation:error",
            "Regex": "Valid_error=(.*?);"
        }
    ]
}
```

Weitere Informationen zum Definieren und Ausführen eines Trainingsjobs mithilfe der SageMaker Low-Level-KI-API finden Sie unter [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html).

# Anzeigen von Trainingsjob-Metriken
<a name="view-train-metrics"></a>

Sie können die von Ihren SageMaker Amazon-Schulungsjobs ausgegebenen Metriken entweder in der Amazon CloudWatch - oder SageMaker AI-Konsole einsehen.

## Überwachen Sie die Metriken für Trainingsjobs (CloudWatch Konsole)
<a name="view-train-metrics-cw"></a>

Sie können die Metriken, die ein Trainingsauftrag ausgibt, in der CloudWatch-Konsole in Echtzeit überwachen.

**Zur Überwachung der Trainingsjob-Metriken (CloudWatch Konsole)**

1. Öffnen Sie die CloudWatch Konsole unter [https://console.aws.amazon.com/cloudwatch.](https://console.aws.amazon.com/cloudwatch)

1. **Wählen Sie **Metrics** und dann/. aws/sagemaker/TrainingJobs**

1. Wählen Sie **TrainingJobName**.

1. Wählen Sie auf der Registerkarte **All metrics (Alle Metriken)** die Namen der Trainingsmetriken aus, die Sie überwachen möchten.

1. Konfigurieren Sie auf der Registerkarte **Graphed metrics (Grafisch dargestellte Metriken)** die Diagrammoptionen. Weitere Informationen zur Verwendung von CloudWatch Diagrammen finden Sie unter [Graph Metrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_metrics.html) im * CloudWatch Amazon-Benutzerhandbuch*.

## Überwachen Sie die Kennzahlen zu Trainingsjobs (SageMaker KI-Konsole)
<a name="view-train-metrics-sm"></a>

Mithilfe der SageMaker KI-Konsole können Sie die Metriken, die ein Trainingsjob ausgibt, in Echtzeit überwachen.

**Zur Überwachung von Trainingsjob-Metriken (SageMaker KI-Konsole)**

1. Öffnen Sie die SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker](https://console.aws.amazon.com/sagemaker).

1. Wählen Sie die Option **Training jobs (Trainingsaufträge)** und anschließend den Trainingsauftrag aus, dessen Metriken Sie sich anzeigen lassen möchten.

1. Wählen Sie **TrainingJobName**.

1. Im Abschnitt **Monitor (Überwachen)** können Sie die Diagramme zur Instance-Nutzung und zu den Algorithmusmetriken einsehen.  
![\[Beispieldiagramme im Abschnitt Überwachen in der Konsole\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/console-metrics.png)

# Beispiel: Anzeigen einer Trainings- und Validierungskurve
<a name="train-valid-curve"></a>

Normalerweise teilen Sie die Daten, auf denen Sie Ihr Modell trainieren, in Trainings- und Validierungsdatensätze auf. Sie verwenden das Trainingsset zum Training der Modellparameter, die verwendet werden, um Voraussagen zum Trainingsdatensatz zu treffen. Anschließend testen Sie, wie gut die Voraussagen des Modells sind, indem Sie Voraussagen für das Validierungsset berechnen. Um die Leistung eines Trainingsauftrags zu analysieren, zeichnen Sie in der Regel eine Trainingskurve neben einer Validierungskurve ein. 

Ein Diagramm, das die Genauigkeit für das Trainings- und das Validierungset über einen Zeitraum hinweg anzeigt, kann Ihnen dabei helfen, die Leistung Ihres Modells zu verbessern. Wenn die Trainingsgenauigkeit beispielsweise im Laufe der Zeit immer besser wird, aber ab einem bestimmten Punkt die Validierungsgenauigkeit sich zu verschlechtern beginnt, haben Sie Ihr Modell vermutlich übermäßig angepasst. Um dieses Problem zu beheben, können Sie Anpassungen an Ihrem Modell vornehmen, wie zum Beispiel die [Regularisierung](https://docs.aws.amazon.com/glossary/latest/reference/glos-chap.html#regularization) erhöhen.

Für dieses Beispiel können Sie das Beispiel **I** im Abschnitt mage-classification-full-training **Beispiel-Notebooks** Ihrer SageMaker AI-Notebook-Instance verwenden. Wenn Sie keine SageMaker Notebook-Instanz haben, erstellen Sie eine, indem Sie den Anweisungen unter folgen[Erstellen Sie eine Amazon SageMaker Notebook-Instance für das Tutorial](gs-setup-working-env.md). Wenn Sie möchten, können Sie dem Beispiel für die [End-to-End Bildklassifizierung mehrerer Klassen im Beispiel-Notizbuch](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/imageclassification_caltech/Image-classification-fulltraining.html) folgen. GitHub Sie benötigen außerdem ein Amazon-S3-Bucket zum Speichern der Trainingsdaten und der Modellausgabe.

**So lassen Sie sich Trainings- und Validierungsfehlerkurven anzeigen**

1. Öffnen Sie die SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker](https://console.aws.amazon.com/sagemaker).

1. Wählen Sie **Notebooks** und dann **Notebook-Instances** aus.

1. Wählen Sie die Notebook-Instance aus, die Sie verwenden möchten, und klicken Sie dann auf **Open (Öffnen)**.

1. **Wählen Sie im Dashboard für Ihre Notebook-Instanz die Option SageMaker AI Examples aus.**

1. Erweitern Sie den Abschnitt **Einführung in Amazon-Algorithmen** und wählen Sie dann **Use** neben **I mage-classification-fulltraining .ipynb** aus.

1. **Wählen Sie Kopie erstellen.** SageMaker AI erstellt eine bearbeitbare Kopie des **I mage-classification-fulltraining .ipynb-Notebooks** in Ihrer Notebook-Instanz.

1. Führen Sie alle Zellen im Notebook bis zum Abschnitt **Inferenz** aus. Sie müssen für dieses Beispiel keinen Endpunkt bereitstellen oder Inferenzen abrufen.

1. [Öffnen Sie nach dem Start des Trainingsjobs die Konsole unter /cloudwatch. CloudWatch https://console.aws.amazon.com](https://console.aws.amazon.com/cloudwatch)

1. **Wählen Sie **Metriken** und anschließend/aus. aws/sagemaker/TrainingJobs**

1. Wählen Sie **TrainingJobName**.

1. Wählen Sie in der Registerkarte **All metrics (Alle Metriken)** die Metriken **train:accuracy** und **validation:accuracy** für den von Ihnen im Notebook angelegten Trainingsauftrag aus.

1. Wählen Sie im Diagramm einen Bereich aus, in dem die Werte der Metrik vergrößert werden sollen. Dies sollte etwa wie folgt aussehen.  
![\[Vergrößerter Bereich im Diagramm\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/train-valid-acc.png)