

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Formazione Spot gestita in Amazon SageMaker AI
<a name="model-managed-spot-training"></a>

Amazon SageMaker AI semplifica l'addestramento di modelli di machine learning utilizzando istanze Spot Amazon EC2 gestite. Managed Spot Training è in grado di ottimizzare il costo dei modelli di addestramento fino al 90% rispetto alle istanze on demand. SageMaker L'intelligenza artificiale gestisce le interruzioni Spot per tuo conto. 

Managed Spot Training utilizza l'istanza Spot Amazon EC2 per eseguire processi di addestramento anziché istanze on demand. Puoi specificare quali processi di formazione utilizzano istanze spot e una condizione di arresto che specifica per quanto tempo l' SageMaker IA attende l'esecuzione di un processo utilizzando le istanze Spot di Amazon EC2. Le metriche e i log generati durante le sessioni di allenamento sono disponibili in. CloudWatch 

L'ottimizzazione automatica dei modelli di Amazon SageMaker AI, nota anche come ottimizzazione degli iperparametri, può utilizzare l'addestramento spot gestito. Per ulteriori informazioni sull’ottimizzazione automatica dei modelli, consulta [Ottimizzazione automatica dei modelli con AI SageMaker](automatic-model-tuning.md).

Le istanze Spot possono essere interrotte, causando un aumento del tempo richiesto per avviare o terminare i processi. Puoi configurare il tuo processo di formazione in loco gestito in modo da utilizzare i checkpoint. SageMaker L'intelligenza artificiale copia i dati del checkpoint da un percorso locale ad Amazon S3. Quando il processo viene riavviato, l' SageMaker intelligenza artificiale copia i dati da Amazon S3 nel percorso locale. Il processo di addestramento può quindi riprendere dall'ultimo checkpoint anziché essere riavviato. Per ulteriori informazioni sulla creazione di checkpoint, consulta [Punti di controllo in Amazon SageMaker AI](model-checkpoints.md).

**Nota**  
A meno che il processo di formazione non venga completato rapidamente, ti consigliamo di utilizzare il checkpointing insieme alla formazione in loco gestita. SageMaker Gli algoritmi integrati nell'intelligenza artificiale e gli algoritmi di marketplace che non prevedono checkpoint sono attualmente limitati a 3600 secondi (`MaxWaitTimeInSeconds`60 minuti). 

Per utilizzare Managed Spot Training, crea un processo di addestramento. Imposta `EnableManagedSpotTraining` su `True` e specifica `MaxWaitTimeInSeconds`. `MaxWaitTimeInSeconds` deve essere maggiore di `MaxRuntimeInSeconds`. Per ulteriori informazioni sulla creazione di un processo di training, consulta [DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html). 

Puoi calcolare i risparmi derivanti dall'utilizzo di Managed Spot Training utilizzando la formula `(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100`. Ad esempio, se `BillableTimeInSeconds` è 100 e `TrainingTimeInSeconds` è 500, significa che il processo di addestramento è durato 500 secondi, ma ti sono stati fatturati solo 100 secondi. Il tuo risparmio è di (1 - (100/ 500)) \* 100 = 80%.

Per scoprire come eseguire lavori di formazione sulle istanze spot di Amazon SageMaker AI e come funziona la formazione spot gestita e riduce il tempo fatturabile, consulta i seguenti notebook di esempio:
+ [Formazione Spot gestita con TensorFlow](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/managed_spot_training_tensorflow_estimator/managed_spot_training_tensorflow_estimator.html)
+ [Addestramento Spot gestito con PyTorch](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training/blob/main/pytorch_managed_spot_training_checkpointing/pytorch_managed_spot_training_checkpointing.ipynb)
+ [Addestramento Spot gestito con XGBoost](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_managed_spot_training.html)
+ [Addestramento Spot gestito con MXNet](https://github.com/aws/amazon-sagemaker-examples-community/blob/215215eb25b40eadaf126d055dbb718a245d7603/training/sagemaker-debugger/mxnet-spot-training-with-sagemakerdebugger.ipynb#L41)
+ [ GitHub Archivio di esempi di formazione Spot gestiti da Amazon SageMaker AI](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training)