Risoluzione delle modifiche alla configurazione del sistema operativo che causano errori o guasti - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione delle modifiche alla configurazione del sistema operativo che causano errori o guasti

Quando si apportano modifiche alla configurazione del sistema operativo ai AWS ParallelCluster nodi, possono verificarsi vari problemi che possono causare errori nella creazione, nell'aggiornamento o nel funzionamento del cluster. Questa sezione fornisce indicazioni per identificare e risolvere i problemi più comuni relativi alla configurazione del sistema operativo.

Problemi comuni di configurazione del sistema operativo

Problemi di configurazione locale

Uno dei problemi di configurazione del sistema operativo più comuni è legato alle impostazioni locali. Se vedi errori come:

cannot change locale (en_US.utf-8) because it has an invalid name

Ciò si verifica in genere quando:

  • Un processo yum di installazione non ha avuto successo e le impostazioni locali sono rimaste in uno stato incoerente

  • Un utente ha interrotto prematuramente un processo di installazione

  • I pacchetti locali sono mancanti o danneggiati

Come diagnosticare

  1. Controlla se puoi passare all'utente pcluster-admin:

    $ su - pcluster-admin

    Se vedi un errore del tipocannot change locale...no such file or directory, questo conferma il problema.

  2. Controlla le versioni locali disponibili:

    $ localedef --list

    Se restituisce un elenco vuoto o non contiene le impostazioni locali predefinite, la configurazione locale non funziona.

  3. Controlla l'ultimo yum comando:

    $ yum history $ yum history info #ID

    Se l'ultimo ID non è presenteReturn-Code: Success, gli script di post-installazione potrebbero non essere stati eseguiti correttamente.

Come risolvere

Ricostruisci la versione locale reinstallando i language pack:

$ sudo yum reinstall glibc-all-langpacks

Dopo la ricostruzione, verifica che il problema sia stato risolto eseguendo:

$ su - pcluster-admin

Se non viene visualizzato alcun errore o avviso, il problema è stato risolto.

Conflitti tra pacchetti OS

Quando si installano pacchetti personalizzati o si modificano pacchetti di sistema, possono verificarsi conflitti che impediscono il corretto funzionamento del cluster.

Come diagnosticare

  1. Controlla il registro chef-client per gli errori relativi al pacchetto:

    $ less /var/log/chef-client.log
  2. Cerca i conflitti di dipendenza dei pacchetti nel log cfn-init:

    $ less /var/log/cfn-init.log

Come risolvere

  1. Se un pacchetto specifico causa problemi, prova a reinstallarlo:

    $ sudo yum reinstall package-name
  2. Per i conflitti di dipendenza, potrebbe essere necessario rimuovere i pacchetti in conflitto:

    $ sudo yum remove conflicting-package
  3. Se il problema persiste, prendi in considerazione la possibilità di creare un'AMI personalizzata con i pacchetti richiesti preinstallati utilizzando il pcluster build-image comando. Per ulteriori informazioni, consulta AWS ParallelCluster Personalizzazione AMI.

Modifiche al file di configurazione del sistema

La modifica dei file di configurazione di sistema critici può causare errori del cluster, soprattutto se tali file sono gestiti da. AWS ParallelCluster

Come diagnosticare

  1. Verifica la presenza di errori nel registro chef-client che menzionano file di configurazione specifici:

    $ grep -i "config" /var/log/chef-client.log
  2. Cerca errori di autorizzazione o sintassi nei file di configurazione:

    $ less /var/log/cfn-init.log

Come risolvere

  1. Ripristina i file di configurazione modificati allo stato originale:

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Se devi apportare modifiche persistenti ai file di configurazione del sistema, utilizza azioni di bootstrap personalizzate anziché modificare direttamente i file:

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Per ulteriori informazioni, consulta Azioni bootstrap personalizzate.

  3. Per le modifiche alla configurazione che devono essere apportate direttamente ai file di sistema, prendi in considerazione la creazione di un'AMI personalizzata. Per ulteriori informazioni, consulta AWS ParallelCluster Personalizzazione AMI.

Aggiornamenti del kernel e problemi di compatibilità

Gli aggiornamenti del kernel possono causare problemi di compatibilità con determinati AWS servizi, in particolare con Amazon FSx for Lustre.

Come diagnosticare

  1. Controlla se gli aggiornamenti del kernel sono stati applicati:

    $ uname -r
  2. Cerca gli errori di FSx montaggio di Amazon nei log:

    $ grep -i "fsx" /var/log/chef-client.log

Come risolvere

  1. Per Ubuntu 22.04, evita l'aggiornamento al kernel più recente poiché non esiste un FSx client Amazon per quel kernel. Per ulteriori informazioni, consulta Considerazioni sul sistema operativo.

  2. Se hai già aggiornato il kernel e riscontri problemi, valuta la possibilità di effettuare il downgrade a una versione del kernel compatibile:

    $ sudo apt install linux-image-previous-version
  3. Per personalizzazioni persistenti del kernel, crea un'AMI personalizzata con la versione del kernel specifica di cui hai bisogno. Per ulteriori informazioni, consulta AWS ParallelCluster Personalizzazione AMI.

Le migliori pratiche per le modifiche alla configurazione del sistema operativo

Per ridurre al minimo i problemi relativi alle modifiche alla configurazione del sistema operativo:

  1. Usa azioni Bootstrap personalizzate: invece di modificare direttamente i file di sistema, usa OnNodeConfigured gli script OnNodeStart o per apportare modifiche in modo controllato. Per ulteriori informazioni, consulta Azioni bootstrap personalizzate.

  2. Creazione personalizzata AMIs: per modifiche significative al sistema operativo, crea un'AMI personalizzata utilizzando, pcluster build-image anziché apportare modifiche, alle istanze in esecuzione. Per ulteriori informazioni, consulta AWS ParallelCluster Personalizzazione AMI.

  3. Verifica prima le modifiche: prima di applicare le modifiche a un cluster di produzione, testale su un piccolo cluster di test per garantire la compatibilità.

  4. Modifiche al documento: tieni traccia di tutte le modifiche alla configurazione del sistema operativo apportate per facilitare la risoluzione dei problemi.

  5. File di configurazione di backup: prima di modificare qualsiasi file di configurazione del sistema, crea un backup:

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Controlla i log dopo le modifiche: dopo aver apportato modifiche alla configurazione del sistema operativo, controlla i log per eventuali errori:

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

Seguendo queste linee guida, è possibile ridurre al minimo il rischio che le modifiche alla configurazione del sistema operativo causino guasti del cluster e risolvere in modo più efficace eventuali problemi.