

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Aggiornamento di un cluster in AWS PCS
<a name="working-with_clusters_update"></a>

AWS PCS consente di aggiornare le configurazioni del cluster dopo la creazione tramite l' UpdateCluster API o la console. È possibile modificare le impostazioni del cluster senza ricostruire l'infrastruttura, il che riduce il sovraccarico operativo e minimizza le interruzioni.

## Vantaggi degli aggiornamenti dei cluster
<a name="update-cluster-benefits"></a>

L'aggiornamento dei cluster AWS PCS consente di adattare l'infrastruttura HPC ai nuovi requisiti senza interruzioni del servizio. Le modifiche alla configurazione richiedono pochi minuti anziché l'ora o più necessaria per ricostruire i cluster. Questa funzionalità è importante per gli ambienti di produzione che richiedono tempi di inattività minimi e per i team che devono modificare le impostazioni dei cluster al variare dei modelli di carico di lavoro.

## Modifiche alla configurazione supportate
<a name="update-cluster-supported-settings"></a>

È possibile modificare tre categorie principali di impostazioni:
+ **Configurazione della contabilità**: abilita o disabilita la contabilità gestita e configura le impostazioni di conservazione.
+ **Comportamento ridotto**: modifica il `scaleDownIdleTime` parametro, che controlla per quanto tempo le istanze dinamiche rimangono inattive prima che AWS PCS le interrompa automaticamente.
+ **Impostazioni personalizzate Slurm: modifica tutte le impostazioni** Slurm supportate che si applicano a livello di cluster, tra cui Prolog, Epilog e. SelectTypeParameters

## Limitazioni
<a name="update-cluster-limitations"></a>

Non è possibile modificare determinate configurazioni dopo la creazione del cluster. Ciò include:
+ Configurazioni dei gruppi di sicurezza
+ Selezione della sottorete VPC
+ Dimensione del cluster
+ Versione Slurm
+ Nome cluster

Queste impostazioni sono fondamentali per l'architettura del cluster e richiedono la creazione di un nuovo cluster per modificarle.

## Prerequisiti per gli aggiornamenti del cluster
<a name="update-cluster-prerequisites"></a>

Prima di aggiornare un cluster, assicurati che siano soddisfatte le seguenti condizioni:
+ Il cluster deve essere in `ACTIVE``UPDATE_FAILED`, o deve essere `SUSPENDED` stato
+ Tutte le risorse associate (Queues, Compute Node Groups) devono essere in stato `ACTIVE`
+ È necessario disporre delle autorizzazioni IAM appropriate per l'operazione UpdateCluster 
+ Non possono essere in corso altre operazioni di aggiornamento

## Processo di aggiornamento e impatto sul lavoro
<a name="update-cluster-process"></a>

Durante un'operazione di aggiornamento, i nodi di elaborazione continuano a eseguire i job esistenti anche quando il controller del cluster diventa irraggiungibile per un breve periodo. Tuttavia, il sistema non può accettare nuove candidature di lavoro o prendere decisioni di pianificazione durante questo periodo.

È possibile monitorare gli aggiornamenti del cluster tramite le interfacce della console e dell'API. Il cluster passerà attraverso i seguenti stati durante un aggiornamento:
+ `UPDATING`- Aggiornamento in corso
+ `ACTIVE`- Aggiornamento completato con successo
+ `UPDATE_FAILED`- L'aggiornamento ha rilevato un errore

## Fatturazione durante gli aggiornamenti
<a name="update-cluster-billing"></a>

Le tariffe orarie standard per il cluster AWS PCS continuano durante le operazioni di aggiornamento. Quando aggiorni un cluster per disabilitare la contabilità, la fatturazione per la funzionalità di contabilità si interrompe non appena il cluster entra nello stato. `UPDATING` Quando si abilita la contabilità, la fatturazione non inizia finché il cluster non completa correttamente l'aggiornamento e torna allo stato. `ACTIVE`

**Topics**
+ [Vantaggi degli aggiornamenti dei cluster](#update-cluster-benefits)
+ [Modifiche alla configurazione supportate](#update-cluster-supported-settings)
+ [Limitazioni](#update-cluster-limitations)
+ [Prerequisiti per gli aggiornamenti del cluster](#update-cluster-prerequisites)
+ [Processo di aggiornamento e impatto sul lavoro](#update-cluster-process)
+ [Fatturazione durante gli aggiornamenti](#update-cluster-billing)
+ [Aggiornare un cluster AWS PCS](working-with_clusters_update_procedure.md)
+ [Domande frequenti sull'aggiornamento dei cluster in AWS PCS](working-with_clusters_update_faq.md)
+ [Risoluzione dei problemi degli aggiornamenti del cluster AWS PCS](working-with_clusters_update_troubleshooting.md)

# Aggiornare un cluster AWS PCS
<a name="working-with_clusters_update_procedure"></a>

Usa questi passaggi per modificare le impostazioni dello scheduler, la configurazione contabile e le impostazioni personalizzate di Slurm sul tuo cluster. Per ulteriori informazioni, consulta [Impostazioni Slurm personalizzate per AWS cluster PCS](slurm-custom-settings-cluster.md).

## Prerequisiti
<a name="update-cluster-procedure-prerequisites"></a>
+ Il cluster deve essere in`ACTIVE`, `UPDATE_FAILED` o deve essere in stato `SUSPENDED`
+ Tutte le risorse associate (Queues, Compute Node Groups) devono essere in stato `ACTIVE`
+ Non possono essere in corso altre operazioni di aggiornamento

## Procedura
<a name="update-cluster-procedure-steps"></a>

------
#### [ Console di gestione AWS ]

1. Apri la console AWS PCS all'indirizzo [https://console.aws.amazon.com/pcs/](https://console.aws.amazon.com/pcs/).

1. Nel pannello di navigazione scegliere **Cluster**.

1. Seleziona il cluster da aggiornare.

1. Scegli **Modifica**.

1. Nella pagina Modifica cluster, modifica le impostazioni desiderate:
   + Nella **configurazione Scheduler**, aggiorna il tempo di **inattività di Scale-down per controllare per quanto tempo le** istanze dinamiche rimangono inattive prima della chiusura automatica.
   + **Modificate le impostazioni dei **parametri Prolog, **Epilog**** e Select-type secondo necessità.**
   + **Abilita, disabilita o configura il tempo di conservazione per la contabilità gestita.**
   + In **Impostazioni aggiuntive dello scheduler**, aggiungi, modifica o rimuovi le impostazioni personalizzate di **Slurm.** Per ulteriori informazioni sui parametri supportati, vedere. [Impostazioni Slurm personalizzate per AWS cluster PCS](slurm-custom-settings-cluster.md)
**Nota**  
I campi che non possono essere modificati vengono visualizzati in sola lettura e mostrano i valori correnti.

1. Scegli **Aggiorna** per inviare le modifiche.

1. Monitora lo stato del cluster, che viene visualizzato come «Aggiornamento» durante il processo. Lo stato cambia quando l'aggiornamento viene completato correttamente.

------
#### [ AWS CLI ]

1. Aprire un terminale o un prompt dei comandi.

1. Verifica lo stato del cluster utilizzando il seguente comando:

   ```
   aws pcs get-cluster --cluster-identifier my-cluster
   ```

1. Invia una richiesta di aggiornamento utilizzando uno dei seguenti esempi:
   + Per abilitare la contabilità gestita:

     ```
     aws pcs update-cluster --cluster-identifier my-cluster \
     --slurm-configuration 'accounting={mode=STANDARD}'
     ```
   + Per aggiornare un'impostazione di Slurm Prolog:

     ```
     aws pcs update-cluster --cluster-identifier my-cluster \
     --slurm-configuration \
     'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
     ```
   + Per aggiornare il tempo di inattività con scale-down:

     ```
     aws pcs update-cluster --cluster-identifier my-cluster \
     --slurm-configuration 'scaleDownIdleTimeInSeconds=300'
     ```

1. Monitora l'avanzamento dell'aggiornamento controllando lo stato del cluster:

   ```
   aws pcs get-cluster --cluster-identifier my-cluster
   ```

Dopo una richiesta di aggiornamento riuscita, il comando restituisce l'oggetto Cluster con tutte le modifiche. Lo stato del cluster cambia da `UPDATING` a `ACTIVE` quando è completo.

------

# Domande frequenti sull'aggiornamento dei cluster in AWS PCS
<a name="working-with_clusters_update_faq"></a>

Ottieni risposte alle domande più comuni sull'aggiornamento delle configurazioni dei cluster in AWS PCS.

**Quali impostazioni posso modificare?**  
È possibile modificare la configurazione della contabilità (abilitare/disabilitare la contabilità gestita), il comportamento di ridimensionamento (parametro scaleDownIdle Time) e qualsiasi impostazione personalizzata Slurm supportata che si applica a livello di cluster. Non è possibile modificare i gruppi di sicurezza, le sottoreti VPC, la dimensione del cluster, la versione Slurm o il nome del cluster.

**Posso mettere in coda più aggiornamenti?**  
No. È necessario attendere che il cluster ritorni allo `ACTIVE` stato prima di inviare un altro aggiornamento. Anche tutte le risorse associate (Queues, Compute Node Groups) devono essere in stato. `ACTIVE`

**Posso annullare un'operazione di aggiornamento del cluster?**  
No, non è possibile annullare un'operazione di aggiornamento del cluster in corso.

**Posso inviare lavori mentre il mio cluster è in fase di aggiornamento?**  
Ti consigliamo di evitare di inviare lavori durante gli aggiornamenti del cluster. Il controller Slurm potrebbe non essere disponibile durante il processo di aggiornamento.

**I miei lavori continueranno a funzionare durante gli aggiornamenti del cluster?**  
Sì, i lavori in esecuzione continuano a essere eseguiti sui nodi di calcolo anche quando il controller del cluster diventa irraggiungibile per un breve periodo durante il processo di aggiornamento. Tuttavia, lo stato del processo potrebbe non aggiornarsi fino a quando il controller non sarà nuovamente disponibile.

**In che modo viene influenzata la fatturazione durante gli aggiornamenti?**  
Le tariffe orarie standard continuano durante le operazioni di aggiornamento. Quando si disabilita la contabilità, la fatturazione si interrompe quando il cluster entra in stato. `UPDATING` Quando si abilita la contabilità, la fatturazione inizia quando il cluster torna correttamente allo stato. `ACTIVE`

# Risoluzione dei problemi degli aggiornamenti del cluster AWS PCS
<a name="working-with_clusters_update_troubleshooting"></a>

Questo argomento consente di identificare e risolvere i problemi più comuni che possono verificarsi durante l'aggiornamento delle configurazioni del cluster.

## L'aggiornamento non riesce a causa di un errore di configurazione contabile
<a name="update-fails-accounting-error"></a>

### Cause comuni
<a name="accounting-error-cause"></a>

Il cluster entra `UPDATE_FAILED` nello stato e il messaggio di errore indica un problema di configurazione dell'account. Ciò si verifica in genere quando la configurazione dell'accounting è incompatibile con la versione corrente di Slurm o contiene impostazioni non valide.

### Risoluzione
<a name="accounting-error-resolution"></a>

Controlla le impostazioni di contabilità per verificarne la compatibilità con la versione Slurm del tuo cluster e invia una richiesta di aggiornamento corretta con parametri di configurazione validi.

## L'aggiornamento non riesce a causa di un errore nelle impostazioni personalizzate
<a name="update-fails-custom-settings-error"></a>

### Cause comuni
<a name="custom-settings-error-cause"></a>

Il cluster entra `UPDATE_FAILED` nello stato e il messaggio di errore indica un problema di impostazioni personalizzate di Slurm. Ciò si verifica quando si forniscono valori dei parametri Slurm non validi o combinazioni di parametri non supportate.

### Risoluzione
<a name="custom-settings-error-resolution"></a>

Convalida le impostazioni personalizzate di Slurm rispetto ai parametri supportati e invia una richiesta di aggiornamento corretta con valori e combinazioni di parametri validi.

## Impossibile inviare una richiesta di aggiornamento
<a name="cannot-submit-update-request"></a>

### Cause comuni
<a name="submit-error-cause"></a>

Il pulsante di aggiornamento è disabilitato nella console o l'API restituisce un errore di 400 livelli. Ciò si verifica quando il cluster non si trova in uno stato appropriato, le risorse associate non sono attive o si verificano errori di convalida nella configurazione.

### Risoluzione
<a name="submit-error-resolution"></a>

Attendi che il cluster e tutte le risorse associate raggiungano `ACTIVE` lo stato, quindi esamina la configurazione per individuare eventuali errori di convalida prima di inviare nuovamente la richiesta di aggiornamento.

## Errori di convalida
<a name="validation-errors"></a>

### Cause comuni
<a name="validation-cause"></a>

Il comando viene restituito immediatamente con un errore HTTP di 400 livelli e un messaggio descrittivo. Ciò si verifica a causa dello stato del cluster, dello stato della risorsa o dei parametri di configurazione non validi.

### Risoluzione
<a name="validation-resolution"></a>

Risolvi l'errore di convalida specifico menzionato nella risposta e riprova l'operazione di aggiornamento.