Behebung von Änderungen an der Betriebssystemkonfiguration, die zu Fehlern oder Ausfällen führen - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Behebung von Änderungen an der Betriebssystemkonfiguration, die zu Fehlern oder Ausfällen führen

Bei Änderungen der Betriebssystemkonfiguration an AWS ParallelCluster Knoten können verschiedene Probleme auftreten, die zu Fehlern bei der Erstellung, Aktualisierung oder beim Betrieb des Clusters führen können. Dieser Abschnitt enthält Anleitungen zur Identifizierung und Lösung häufiger Probleme im Zusammenhang mit der Betriebssystemkonfiguration.

Allgemeine Probleme mit der Betriebssystemkonfiguration

Probleme mit der Konfiguration des Gebietsschemas

Eines der häufigsten Probleme mit der Betriebssystemkonfiguration hängt mit den Gebietsschemaeinstellungen zusammen. Wenn Sie Fehler sehen wie:

cannot change locale (en_US.utf-8) because it has an invalid name

Dies tritt normalerweise auf, wenn:

  • Ein yum Installationsvorgang war nicht erfolgreich und die Gebietsschemaeinstellungen blieben inkonsistent

  • Ein Benutzer hat einen Installationsvorgang vorzeitig beendet

  • Locale-Pakete fehlen oder sind beschädigt

Wie diagnostiziert man

  1. Prüfen Sie, ob Sie zum Benutzer pcluster-admin wechseln können:

    $ su - pcluster-admin

    Wenn Sie einen Fehler wie sehencannot change locale...no such file or directory, bestätigt dies das Problem.

  2. Überprüfen Sie die verfügbaren Gebietsschemas:

    $ localedef --list

    Wenn dies eine leere Liste zurückgibt oder das Standardgebietsschema nicht enthält, ist Ihre Gebietsschema-Konfiguration fehlerhaft.

  3. Überprüfen Sie den letzten Befehlyum:

    $ yum history $ yum history info #ID

    Wenn die letzte ID nicht vorhanden istReturn-Code: Success, wurden die Skripts nach der Installation möglicherweise nicht erfolgreich ausgeführt.

Wie kann man das Problem lösen

Erstellen Sie das Gebietsschema neu, indem Sie die Sprachpakete neu installieren:

$ sudo yum reinstall glibc-all-langpacks

Stellen Sie nach der Neuerstellung sicher, dass das Problem behoben ist, indem Sie Folgendes ausführen:

$ su - pcluster-admin

Wenn kein Fehler oder keine Warnung angezeigt wird, wurde das Problem behoben.

Konflikte mit Betriebssystempaketen

Bei der Installation von benutzerdefinierten Paketen oder der Änderung von Systempaketen können Konflikte auftreten, die den ordnungsgemäßen Betrieb des Clusters verhindern.

Wie diagnostiziert man

  1. Überprüfen Sie das Chef-Client-Protokoll auf paketbezogene Fehler:

    $ less /var/log/chef-client.log
  2. Suchen Sie im cfn-init-Protokoll nach Paket-Abhängigkeitskonflikten:

    $ less /var/log/cfn-init.log

Wie löst man

  1. Wenn ein bestimmtes Paket Probleme verursacht, versuchen Sie, es erneut zu installieren:

    $ sudo yum reinstall package-name
  2. Bei Abhängigkeitskonflikten müssen Sie möglicherweise Pakete entfernen, die Konflikte verursachen:

    $ sudo yum remove conflicting-package
  3. Wenn das Problem weiterhin besteht, sollten Sie erwägen, ein benutzerdefiniertes AMI mit den erforderlichen Paketen zu erstellen, die mit dem pcluster build-image Befehl vorinstalliert sind. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.

Änderungen an der Systemkonfigurationsdatei

Das Ändern kritischer Systemkonfigurationsdateien kann zu Clusterausfällen führen, insbesondere wenn diese Dateien von verwaltet werden AWS ParallelCluster.

Wie diagnostiziert man

  1. Suchen Sie im Chef-Client-Protokoll nach Fehlern, die bestimmte Konfigurationsdateien erwähnen:

    $ grep -i "config" /var/log/chef-client.log
  2. Suchen Sie in den Konfigurationsdateien nach Berechtigungs- oder Syntaxfehlern:

    $ less /var/log/cfn-init.log

Wie löst man das Problem

  1. Stellen Sie den ursprünglichen Zustand der geänderten Konfigurationsdateien wieder her:

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Wenn Sie dauerhafte Änderungen an Systemkonfigurationsdateien vornehmen müssen, verwenden Sie benutzerdefinierte Bootstrap-Aktionen, anstatt Dateien direkt zu ändern:

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

  3. Für Konfigurationsänderungen, die direkt an Systemdateien vorgenommen werden müssen, sollten Sie erwägen, ein benutzerdefiniertes AMI zu erstellen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.

Kernel-Updates und Kompatibilitätsprobleme

Kernel-Updates können zu Kompatibilitätsproblemen mit bestimmten AWS Diensten führen, insbesondere mit Amazon FSx for Lustre.

Wie diagnostiziert man

  1. Prüfen Sie, ob Kernel-Updates installiert wurden:

    $ uname -r
  2. Suchen Sie in den Protokollen nach FSx Amazon-Mount-Fehlern:

    $ grep -i "fsx" /var/log/chef-client.log

Wie kann man das Problem lösen

  1. Vermeiden Sie für Ubuntu 22.04 die Aktualisierung auf den neuesten Kernel, da es für diesen Kernel keinen FSx Amazon-Client gibt. Weitere Informationen finden Sie unter Überlegungen zum Betriebssystem.

  2. Wenn Sie den Kernel bereits aktualisiert haben und Probleme auftreten, sollten Sie ein Downgrade auf eine kompatible Kernel-Version in Betracht ziehen:

    $ sudo apt install linux-image-previous-version
  3. Für persistente Kernel-Anpassungen erstellen Sie ein benutzerdefiniertes AMI mit der spezifischen Kernel-Version, die Sie benötigen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.

Bewährte Methoden für Änderungen der Betriebssystemkonfiguration

So minimieren Sie Probleme bei Änderungen der Betriebssystemkonfiguration:

  1. Verwenden Sie benutzerdefinierte Bootstrap-Aktionen: Anstatt Systemdateien direkt zu ändern, verwenden Sie OnNodeStart OnNodeConfigured O-Skripte, um Änderungen auf kontrollierte Weise vorzunehmen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.

  2. Benutzerdefiniert erstellen AMIs: Für wichtige Änderungen am Betriebssystem sollten Sie ein benutzerdefiniertes AMI erstellen, indem Sie die laufenden Instances verwenden, pcluster build-image anstatt Änderungen daran vorzunehmen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.

  3. Testen Sie zuerst die Änderungen: Bevor Sie Änderungen auf einen Produktionscluster anwenden, testen Sie sie auf einem kleinen Testcluster, um die Kompatibilität sicherzustellen.

  4. Änderungen dokumentieren: Behalten Sie den Überblick über alle Änderungen an der Betriebssystemkonfiguration, um die Fehlerbehebung zu erleichtern.

  5. Konfigurationsdateien sichern: Bevor Sie eine Systemkonfigurationsdatei ändern, erstellen Sie eine Backup:

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Überprüfen Sie die Protokolle nach Änderungen: Nachdem Sie Änderungen an der Betriebssystemkonfiguration vorgenommen haben, überprüfen Sie die Protokolle auf Fehler:

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

Wenn Sie diese Richtlinien befolgen, können Sie das Risiko minimieren, dass Änderungen an der Betriebssystemkonfiguration zu Clusterausfällen führen, und auftretende Probleme effektiver beheben.