

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Punti di controllo in Amazon SageMaker AI
<a name="model-checkpoints"></a>

Usa i checkpoint in Amazon SageMaker AI per salvare lo stato dei modelli di machine learning (ML) durante la formazione. I checkpoint sono istantanee del modello e possono essere configurati tramite le funzioni di callback dei framework ML. È possibile utilizzare i checkpoint salvati per riavviare un job di addestramento dall’ultimo checkpoint salvato. 

Utilizzando i checkpoint, puoi eseguire le seguenti operazioni:
+ Salvare le istantanee del modello durante l'addestramento a causa di un'interruzione imprevista del processo o dell'istanza di addestramento.
+ Riprendere ad addestrare il modello in futuro da un checkpoint.
+ Analizzare il modello nelle fasi intermedie dell’addestramento.
+ Utilizzare i checkpoint con S3 Express One Zone per una maggiore velocità di accesso.
+ Usa i checkpoint con la formazione in loco gestita dall' SageMaker intelligenza artificiale per risparmiare sui costi di formazione.

Il meccanismo di SageMaker formazione utilizza contenitori di formazione su istanze Amazon EC2 e i file dei checkpoint vengono salvati in una directory locale dei contenitori (l'impostazione predefinita è). `/opt/ml/checkpoints` SageMaker L'intelligenza artificiale fornisce la funzionalità per copiare i checkpoint dal percorso locale ad Amazon S3 e sincronizza automaticamente i checkpoint in quella directory con S3. I checkpoint esistenti in S3 vengono scritti nel contenitore SageMaker AI all'inizio del processo, consentendo la ripresa dei processi da un checkpoint. I checkpoint aggiunti alla cartella S3 dopo l'avvio del processo non vengono copiati nel contenitore di formazione. SageMaker L'intelligenza artificiale scrive anche nuovi checkpoint dal contenitore a S3 durante l'addestramento. Se un checkpoint viene eliminato nel contenitore SageMaker AI, verrà eliminato anche nella cartella S3.

Puoi utilizzare i checkpoint in Amazon SageMaker AI con la classe di storage Amazon S3 Express One Zone (S3 Express One Zone) per un accesso più rapido ai checkpoint. Quando abiliti il checkpointing e specifichi l’URI S3 per la destinazione di archiviazione del checkpoint, puoi fornire un URI S3 per una cartella in un bucket S3 generico o di directory S3. I bucket di directory S3 integrati con l' SageMaker intelligenza artificiale possono essere crittografati solo con la crittografia lato server con chiavi gestite di Amazon S3 (SSE-S3). La crittografia lato server con chiavi (SSE-KMS) non è attualmente supportata. AWS KMS Per ulteriori informazioni sui bucket di directory S3 Express One Zone ed S3, consulta [Che cos’è S3 Express One Zone](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-express-one-zone.html).

Se utilizzi punti di controllo con formazione puntuale gestita dall' SageMaker IA, l' SageMaker IA gestisce il checkpoint dell'addestramento del modello su un'istanza locale e la ripresa del processo di formazione sull'istanza spot successiva. Con la formazione in loco gestita dall' SageMaker IA, puoi ridurre in modo significativo il tempo fatturabile per l'addestramento dei modelli di machine learning. Per ulteriori informazioni, consulta [Managed Spot Training in Amazon SageMaker AI](model-managed-spot-training.md).

**Topics**
+ [Punti di controllo per framework e algoritmi nell'IA SageMaker](#model-checkpoints-whats-supported)
+ [Considerazioni sul checkpointing](#model-checkpoints-considerations)
+ [Abilitazione del checkpointing](model-checkpoints-enable.md)
+ [Consultazione dei file di checkpoint](model-checkpoints-saved-file.md)
+ [Ripresa dell’addestramento da un checkpoint](model-checkpoints-resume.md)
+ [Riparazioni del cluster a seguito di errori della GPU](model-checkpoints-cluster-repair.md)

## Punti di controllo per framework e algoritmi nell'IA SageMaker
<a name="model-checkpoints-whats-supported"></a>

Usa i checkpoint per salvare istantanee di modelli ML basati sui tuoi framework preferiti all'interno dell'IA. SageMaker 

**SageMaker Framework e algoritmi di intelligenza artificiale che supportano il checkpoint**

SageMaker L'intelligenza artificiale supporta il checkpoint per AWS Deep Learning Containers e un sottoinsieme di algoritmi integrati senza richiedere modifiche agli script di addestramento. SageMaker L'intelligenza artificiale salva i checkpoint nel percorso locale predefinito `'/opt/ml/checkpoints'` e li copia su Amazon S3. 
+ Deep Learning Containers: [TensorFlow[PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html)](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html), [MXNet](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/sagemaker.mxnet.html), e [HuggingFace](https://sagemaker.readthedocs.io/en/stable/frameworks/huggingface/sagemaker.huggingface.html)
**Nota**  
Se si utilizza lo stimatore del HuggingFace framework, è necessario specificare un percorso di output del checkpoint tramite iperparametri. Per ulteriori informazioni, consulta [Esegui corsi di formazione su Amazon SageMaker AI](https://huggingface.co/docs/sagemaker/train) nella *HuggingFacedocumentazione*.
+ Algoritmi integrati: [classificazione delle immagini](https://docs.aws.amazon.com/sagemaker/latest/dg/image-classification.html), [rilevamento di oggetti](https://docs.aws.amazon.com/sagemaker/latest/dg/object-detection.html), [segmentazione semantica](https://docs.aws.amazon.com/sagemaker/latest/dg/semantic-segmentation.html) e [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)(0,90-1 o versione successiva)
**Nota**  
Se si utilizza l' XGBoost algoritmo in modalità framework (modalità script), è necessario utilizzare uno script di XGBoost addestramento con checkpoint configurato manualmente. Per ulteriori informazioni sui metodi di XGBoost addestramento per salvare le istantanee dei modelli, consulta [Training XGBoost](https://xgboost.readthedocs.io/en/latest/python/python_intro.html#training) *nella documentazione di XGBoost Python SDK*.

Se un algoritmo predefinito che non supporta il checkpoint viene utilizzato in un processo di formazione in loco gestito, l' SageMaker intelligenza artificiale non consente un tempo di attesa massimo superiore a un'ora per il lavoro al fine di limitare il tempo di formazione sprecato a causa delle interruzioni.

**Per i container di addestramento personalizzati e altri framework**

Se si utilizzano contenitori di formazione, script di formazione o altri framework non elencati nella sezione precedente, è necessario configurare correttamente lo script di formazione utilizzando callback o training APIs per salvare i checkpoint nel percorso locale (`'/opt/ml/checkpoints'`) e caricarlo dal percorso locale nello script di formazione. SageMaker Gli estimatori AI possono sincronizzarsi con il percorso locale e salvare i checkpoint su Amazon S3.

## Considerazioni sul checkpointing
<a name="model-checkpoints-considerations"></a>

Considera quanto segue quando usi i checkpoint nell'IA. SageMaker 
+ Per evitare sovrascritture nell’addestramento distribuito con più istanze, devi configurare manualmente i nomi e i percorsi dei file di checkpoint nello script di addestramento. La configurazione di checkpoint SageMaker AI di alto livello specifica una singola posizione Amazon S3 senza suffissi o prefissi aggiuntivi per etichettare i checkpoint da più istanze.
+ L'SDK SageMaker Python non supporta la configurazione di alto livello per la frequenza dei checkpoint. Per controllare la frequenza dei checkpoint, modifica lo script di addestramento utilizzando le funzioni di salvataggio del modello o i callback dei checkpoint del framework.
+ Se utilizzi checkpoint SageMaker AI con SageMaker Debugger e SageMaker AI distributed e riscontri problemi, consulta le pagine seguenti per la risoluzione dei problemi e le considerazioni.
  + [Formazione distribuita supportata da Amazon SageMaker Debugger](debugger-reference.md#debugger-considerations)
  + [Risoluzione dei problemi relativi alla formazione distribuita in Amazon SageMaker AI](distributed-troubleshooting-data-parallel.md)
  + [Risoluzione dei problemi del parallelismo dei modelli](distributed-troubleshooting-model-parallel.md)

# Abilitazione del checkpointing
<a name="model-checkpoints-enable"></a>

Dopo aver abilitato il checkpoint, l' SageMaker intelligenza artificiale salva i checkpoint su Amazon S3 e sincronizza il processo di formazione con il bucket checkpoint S3. Puoi utilizzare i bucket di directory S3 generici o i bucket di directory S3 per il tuo bucket S3 di checkpoint. 

![\[Diagramma architettonico della scrittura dei checkpoint durante l’addestramento.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/checkpoints_write.png)


L'esempio seguente mostra come configurare i percorsi dei checkpoint quando costruisci uno stimatore AI. SageMaker Per abilitare il checkpoint, aggiungi i parametri `checkpoint_s3_uri` e `checkpoint_local_path` allo strumento di valutazione. 

Il seguente modello di esempio mostra come creare uno stimatore SageMaker AI generico e abilitare il checkpoint. È possibile utilizzare questo modello per gli algoritmi supportati specificando il parametro `image_uri`. [Per trovare l'immagine Docker URIs per gli algoritmi con checkpoint supportato dall' SageMaker intelligenza artificiale, vedi Docker Registry Paths and Example Code.](https://docs.aws.amazon.com/sagemaker/latest/dg-ecr-paths/sagemaker-algo-docker-registry-paths) Puoi anche sostituire `estimator` e utilizzare le classi principali e `Estimator` le classi estimator di altri framework di SageMaker intelligenza artificiale, come,, e. `[TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/using_tf.html#create-an-estimator)` `[PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#create-an-estimator)` `[MXNet](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html#create-an-estimator)` `[HuggingFace](https://huggingface.co/docs/sagemaker/train#create-a-hugging-face-estimator)` `[XGBoost](https://sagemaker.readthedocs.io/en/stable/frameworks/xgboost/using_xgboost.html#create-an-estimator)`

```
import sagemaker
from sagemaker.estimator import Estimator

bucket=sagemaker.Session().default_bucket()
base_job_name="sagemaker-checkpoint-test"
checkpoint_in_bucket="checkpoints"

# The S3 URI to store the checkpoints
checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket)

# The local path where the model will save its checkpoints in the training container
checkpoint_local_path="/opt/ml/checkpoints"

estimator = Estimator(
    ...
    image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms
    output_path=bucket,
    base_job_name=base_job_name,
    
    # Parameters required to enable checkpointing
    checkpoint_s3_uri=checkpoint_s3_bucket,
    checkpoint_local_path=checkpoint_local_path
)
```

I due parametri seguenti specificano i percorsi per il checkpoint:
+ `checkpoint_local_path`— Specifica il percorso locale in cui il modello salva periodicamente i checkpoint in un container di addestramento. Il percorso predefinito è `'/opt/ml/checkpoints'`. Se stai utilizzando altri framework o state utilizzando un container di addestramento personale, assicurati che la configurazione del checkpoint dello script di addestramento specifichi il percorso verso `'/opt/ml/checkpoints'`.
**Nota**  
Ti consigliamo di specificare i percorsi locali in modo che siano coerenti con le impostazioni `'/opt/ml/checkpoints'` di checkpoint AI predefinite. SageMaker Se preferisci specificare il tuo percorso locale, assicurati di abbinare il percorso di salvataggio del checkpoint nello script di addestramento e il `checkpoint_local_path` parametro degli stimatori AI. SageMaker 
+ `checkpoint_s3_uri`— L'URI di un bucket S3 in cui i checkpoint sono memorizzati in tempo reale. È possibile specificare un bucket S3 generico o di directory per archiviare i checkpoint. Per ulteriori informazioni sui bucket di directory S3, consulta [Bucket di directory](https://docs.aws.amazon.com/AmazonS3/latest/userguide/directory-buckets-overview.html) nella *Guida per l’utente di Amazon Simple Storage Service*. 

Per trovare un elenco completo dei parametri di stima SageMaker AI, consulta l'[API Estimator nella documentazione](https://sagemaker.readthedocs.io/en/stable/api/training/estimators.html#sagemaker.estimator.Estimator) di Amazon *[ SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable)*.

# Consultazione dei file di checkpoint
<a name="model-checkpoints-saved-file"></a>

Individua i file dei checkpoint utilizzando l'SDK SageMaker Python e la console Amazon S3.

**Per trovare i file dei checkpoint a livello di codice**

Per recuperare l'URI del bucket S3 in cui sono salvati i checkpoint, controlla il seguente attributo dello strumento di valutazione:

```
estimator.checkpoint_s3_uri
```

Ciò restituisce il percorso di output di S3 per i checkpoint configurati durante la richiesta `CreateTrainingJob`. Per trovare i file di checkpoint salvati utilizzando la console di Amazon S3, attieniti alla procedura seguente.

**Come trovare i file dei checkpoint dalla console di Amazon S3**

1. Accedi Console di gestione AWS e apri la console AI all' SageMaker indirizzo. [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)

1. Nel pannello di navigazione a sinistra scegli **Processi di addestramento**.

1. Scegli il link al processo di addestramento con checkpoint abilitato per aprire le **impostazioni del processo**.

1. Nella pagina **Impostazioni processo** del processo di addestramento, individua la sezione **Configurazione Checkpoint**.  
![\[Sezione di configurazione del checkpoint nella pagina delle Impostazioni processo di un processo di addestramento.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/checkpoints_trainingjob.png)

1. Usa il link al bucket S3 per accedere ai file del checkpoint.

# Ripresa dell’addestramento da un checkpoint
<a name="model-checkpoints-resume"></a>

Per riprendere un processo di addestramento da un checkpoint, esegui un nuovo strumento di valutazione con lo stesso `checkpoint_s3_uri` che hai creato nella sezione [Abilitazione del checkpointing](model-checkpoints-enable.md). Una volta ripreso l'addestramento, i checkpoint di questo bucket S3 vengono ripristinati in `checkpoint_local_path` in ogni istanza del nuovo processo di addestramento. Assicurati che il bucket S3 si trovi nella stessa regione di quella della sessione AI corrente. SageMaker 

![\[Diagramma dell'architettura della sincronizzazione dei checkpoint per la ripresa dell'addestramento.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/checkpoints_resume.png)


# Riparazioni del cluster a seguito di errori della GPU
<a name="model-checkpoints-cluster-repair"></a>

Se stai eseguendo un processo di formazione che non riesce su una GPU, SageMaker AI eseguirà un controllo dello stato della GPU per verificare se l'errore è correlato a un problema relativo alla GPU. SageMaker L'IA intraprende le seguenti azioni in base ai risultati del controllo dello stato di salute:
+ Se l'errore è recuperabile e può essere corretto riavviando l'istanza o reimpostando la GPU, AI riavvierà l'istanza. SageMaker 
+ Se l'errore non è recuperabile ed è causato da una GPU che deve essere sostituita, l'intelligenza artificiale sostituirà l'istanza. SageMaker 

L'istanza viene sostituita o riavviata come parte di un SageMaker processo di riparazione del cluster AI. Durante questo processo, nello stato del job di addestramento viene visualizzato il seguente messaggio:

`Repairing training cluster due to hardware failure`

SageMaker L'IA tenterà di riparare il cluster fino a `10` volte. Se la riparazione del cluster ha esito positivo, l' SageMaker IA riavvierà automaticamente il processo di formazione dal checkpoint precedente. Se la riparazione del cluster non riesce, anche il job di addestramento avrà esito negativo. Il processo di riparazione del cluster non viene fatturato. Le riparazioni dei cluster vengono avviate solo se il job di addestramento ha esito negativo. Se viene rilevato un problema relativo alla GPU per un cluster warmpool, il cluster entrerà in modalità di riparazione per riavviare o sostituire l’istanza difettosa. Dopo la riparazione, il cluster può ancora essere utilizzato come cluster warmpool.

Il processo di riparazione di cluster e istanze descritto in precedenza è illustrato nel diagramma seguente:

![\[The cluster and instance repair process.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/training-cluster-repair.png)