Risoluzione dei problemi degli aggiornamenti del cluster AWS PCS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi degli aggiornamenti del cluster AWS PCS

Questo argomento consente di identificare e risolvere i problemi più comuni che possono verificarsi durante l'aggiornamento delle configurazioni del cluster.

L'aggiornamento non riesce a causa di un errore di configurazione contabile

Cause comuni

Il cluster entra UPDATE_FAILED nello stato e il messaggio di errore indica un problema di configurazione dell'account. Ciò si verifica in genere quando la configurazione dell'accounting è incompatibile con la versione corrente di Slurm o contiene impostazioni non valide.

Risoluzione

Controlla le impostazioni di contabilità per verificarne la compatibilità con la versione Slurm del tuo cluster e invia una richiesta di aggiornamento corretta con parametri di configurazione validi.

L'aggiornamento non riesce a causa di un errore nelle impostazioni personalizzate

Cause comuni

Il cluster entra UPDATE_FAILED nello stato e il messaggio di errore indica un problema di impostazioni personalizzate di Slurm. Ciò si verifica quando si forniscono valori dei parametri Slurm non validi o combinazioni di parametri non supportate.

Risoluzione

Convalida le impostazioni personalizzate di Slurm rispetto ai parametri supportati e invia una richiesta di aggiornamento corretta con valori e combinazioni di parametri validi.

Impossibile inviare una richiesta di aggiornamento

Cause comuni

Il pulsante di aggiornamento è disabilitato nella console o l'API restituisce un errore di 400 livelli. Ciò si verifica quando il cluster non si trova in uno stato appropriato, le risorse associate non sono attive o si verificano errori di convalida nella configurazione.

Risoluzione

Attendi che il cluster e tutte le risorse associate raggiungano ACTIVE lo stato, quindi esamina la configurazione per individuare eventuali errori di convalida prima di inviare nuovamente la richiesta di aggiornamento.

Errori di convalida

Cause comuni

Il comando viene restituito immediatamente con un errore HTTP di 400 livelli e un messaggio descrittivo. Ciò si verifica a causa dello stato del cluster, dello stato della risorsa o dei parametri di configurazione non validi.

Risoluzione

Risolvi l'errore di convalida specifico menzionato nella risposta e riprova l'operazione di aggiornamento.