

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verwaltetes Spot-Training in Amazon SageMaker AI
<a name="model-managed-spot-training"></a>

Amazon SageMaker AI macht es einfach, Modelle für maschinelles Lernen mithilfe verwalteter Amazon EC2 Spot-Instances zu trainieren. Mithilfe von Managed Spot Training können die Kosten für das Training von Modellen über On-Demand-Instances um bis zu 90 % optimiert werden. SageMaker KI verwaltet die Spot-Unterbrechungen in Ihrem Namen. 

Managed Spot Training verwendet Amazon-EC2-Spot Instance zum Ausführen von Trainingsaufträgen anstelle von On-Demand-Instances. Sie können angeben, für welche Trainingsjobs Spot-Instances verwendet werden, und eine Stopp-Bedingung festlegen, die festlegt, wie lange SageMaker KI auf die Ausführung eines Jobs mit Amazon EC2-Spot-Instances wartet. Metriken und Protokolle, die während der Trainingsläufe generiert wurden, sind unter verfügbar. CloudWatch 

Die automatische Modelloptimierung von Amazon SageMaker AI, auch bekannt als Hyperparameter-Tuning, kann verwaltetes Spot-Training verwenden. Weitere Informationen zur automatischen Modelloptimierung finden Sie unter [Automatische Modelloptimierung mit KI SageMaker](automatic-model-tuning.md).

Spot-Instances können unterbrochen werden, was dazu führt, dass es länger dauert, bis Aufträge gestartet oder beendet werden. Sie können Ihren verwalteten Spot-Trainingsjob so konfigurieren, dass er Checkpoints verwendet. SageMaker KI kopiert Checkpoint-Daten von einem lokalen Pfad nach Amazon S3. Wenn der Job neu gestartet wird, kopiert SageMaker AI die Daten von Amazon S3 zurück in den lokalen Pfad. Das Training kann dann ab dem letzten Prüfpunkt fortgesetzt werden, anstatt neu zu starten. Weitere Informationen zum Checkpointing finden Sie unter [Checkpoints in Amazon AI SageMaker](model-checkpoints.md).

**Anmerkung**  
Sofern Ihr Trainingsjob nicht schnell abgeschlossen wird, empfehlen wir Ihnen, Checkpointing zusammen mit verwaltetem Spot-Training zu verwenden. SageMaker Integrierte KI-Algorithmen und Marketplace-Algorithmen, die kein Checkpoint durchführen, sind derzeit auf 3600 Sekunden (60 Minuten) begrenzt. `MaxWaitTimeInSeconds` 

Um Managed Spot Training zu verwenden, erstellen Sie einen Trainingsauftrag. Legen Sie `EnableManagedSpotTraining` auf `True` fest und geben Sie einen Wert für `MaxWaitTimeInSeconds` an. `MaxWaitTimeInSeconds` muss größer sein als `MaxRuntimeInSeconds`. Informationen zum Erstellen eines Schulungsauftrags finden Sie unter [DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html). 

Sie können die Einsparungen durch die Verwendung von Managed Spot Training mithilfe der Formel `(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100` berechnen. Wenn beispielsweise `BillableTimeInSeconds` 100 ist und `TrainingTimeInSeconds` 500 ist, bedeutet dies, dass Ihr Trainingsauftrag 500 Sekunden lang lief, Ihnen aber nur 100 Sekunden in Rechnung gestellt wurden. Ihre Ersparnis beträgt (1 – (100 / 500)) \* 100 = 80%.

In den folgenden Beispiel-Notebooks erfahren Sie, wie Trainingsjobs auf Amazon SageMaker AI-Spot-Instances ausgeführt werden und wie verwaltetes Spot-Training funktioniert und die abrechnungsfähige Zeit reduziert:
+ [Verwaltetes Spot-Training mit TensorFlow](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/managed_spot_training_tensorflow_estimator/managed_spot_training_tensorflow_estimator.html)
+ [Managed Spot Training mit PyTorch](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training/blob/main/pytorch_managed_spot_training_checkpointing/pytorch_managed_spot_training_checkpointing.ipynb)
+ [Verwaltete Spot-Training mit XGBoost](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_managed_spot_training.html)
+ [Verwaltete Spot-Training mit MXNet](https://github.com/aws/amazon-sagemaker-examples-community/blob/215215eb25b40eadaf126d055dbb718a245d7603/training/sagemaker-debugger/mxnet-spot-training-with-sagemakerdebugger.ipynb#L41)
+ [ GitHub Repository mit Amazon SageMaker AI Managed Spot-Schulungsbeispielen](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training)