Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Behebung von Änderungen an der Betriebssystemkonfiguration, die zu Fehlern oder Ausfällen führen
Bei Änderungen der Betriebssystemkonfiguration an AWS ParallelCluster Knoten können verschiedene Probleme auftreten, die zu Fehlern bei der Erstellung, Aktualisierung oder beim Betrieb des Clusters führen können. Dieser Abschnitt enthält Anleitungen zur Identifizierung und Lösung häufiger Probleme im Zusammenhang mit der Betriebssystemkonfiguration.
Allgemeine Probleme mit der Betriebssystemkonfiguration
Probleme mit der Konfiguration des Gebietsschemas
Eines der häufigsten Probleme mit der Betriebssystemkonfiguration hängt mit den Gebietsschemaeinstellungen zusammen. Wenn Sie Fehler sehen wie:
cannot change locale (en_US.utf-8) because it has an invalid name
Dies tritt normalerweise auf, wenn:
-
Ein
yum
Installationsvorgang war nicht erfolgreich und die Gebietsschemaeinstellungen blieben inkonsistent -
Ein Benutzer hat einen Installationsvorgang vorzeitig beendet
-
Locale-Pakete fehlen oder sind beschädigt
Wie diagnostiziert man
-
Prüfen Sie, ob Sie zum Benutzer pcluster-admin wechseln können:
$
su - pcluster-admin
Wenn Sie einen Fehler wie sehen
cannot change locale...no such file or directory
, bestätigt dies das Problem. -
Überprüfen Sie die verfügbaren Gebietsschemas:
$
localedef --list
Wenn dies eine leere Liste zurückgibt oder das Standardgebietsschema nicht enthält, ist Ihre Gebietsschema-Konfiguration fehlerhaft.
-
Überprüfen Sie den letzten Befehl
yum
:$
yum history
$
yum history info #ID
Wenn die letzte ID nicht vorhanden ist
Return-Code: Success
, wurden die Skripts nach der Installation möglicherweise nicht erfolgreich ausgeführt.
Wie kann man das Problem lösen
Erstellen Sie das Gebietsschema neu, indem Sie die Sprachpakete neu installieren:
$
sudo yum reinstall glibc-all-langpacks
Stellen Sie nach der Neuerstellung sicher, dass das Problem behoben ist, indem Sie Folgendes ausführen:
$
su - pcluster-admin
Wenn kein Fehler oder keine Warnung angezeigt wird, wurde das Problem behoben.
Konflikte mit Betriebssystempaketen
Bei der Installation von benutzerdefinierten Paketen oder der Änderung von Systempaketen können Konflikte auftreten, die den ordnungsgemäßen Betrieb des Clusters verhindern.
Wie diagnostiziert man
-
Überprüfen Sie das Chef-Client-Protokoll auf paketbezogene Fehler:
$
less /var/log/chef-client.log
-
Suchen Sie im cfn-init-Protokoll nach Paket-Abhängigkeitskonflikten:
$
less /var/log/cfn-init.log
Wie löst man
-
Wenn ein bestimmtes Paket Probleme verursacht, versuchen Sie, es erneut zu installieren:
$
sudo yum reinstall package-name
-
Bei Abhängigkeitskonflikten müssen Sie möglicherweise Pakete entfernen, die Konflikte verursachen:
$
sudo yum remove conflicting-package
-
Wenn das Problem weiterhin besteht, sollten Sie erwägen, ein benutzerdefiniertes AMI mit den erforderlichen Paketen zu erstellen, die mit dem
pcluster build-image
Befehl vorinstalliert sind. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.
Änderungen an der Systemkonfigurationsdatei
Das Ändern kritischer Systemkonfigurationsdateien kann zu Clusterausfällen führen, insbesondere wenn diese Dateien von verwaltet werden AWS ParallelCluster.
Wie diagnostiziert man
-
Suchen Sie im Chef-Client-Protokoll nach Fehlern, die bestimmte Konfigurationsdateien erwähnen:
$
grep -i "config" /var/log/chef-client.log
-
Suchen Sie in den Konfigurationsdateien nach Berechtigungs- oder Syntaxfehlern:
$
less /var/log/cfn-init.log
Wie löst man das Problem
-
Stellen Sie den ursprünglichen Zustand der geänderten Konfigurationsdateien wieder her:
$
sudo cp /etc/file.conf.bak /etc/file.conf
-
Wenn Sie dauerhafte Änderungen an Systemkonfigurationsdateien vornehmen müssen, verwenden Sie benutzerdefinierte Bootstrap-Aktionen, anstatt Dateien direkt zu ändern:
HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh
Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen.
-
Für Konfigurationsänderungen, die direkt an Systemdateien vorgenommen werden müssen, sollten Sie erwägen, ein benutzerdefiniertes AMI zu erstellen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.
Kernel-Updates und Kompatibilitätsprobleme
Kernel-Updates können zu Kompatibilitätsproblemen mit bestimmten AWS Diensten führen, insbesondere mit Amazon FSx for Lustre.
Wie diagnostiziert man
-
Prüfen Sie, ob Kernel-Updates installiert wurden:
$
uname -r
-
Suchen Sie in den Protokollen nach FSx Amazon-Mount-Fehlern:
$
grep -i "fsx" /var/log/chef-client.log
Wie kann man das Problem lösen
-
Vermeiden Sie für Ubuntu 22.04 die Aktualisierung auf den neuesten Kernel, da es für diesen Kernel keinen FSx Amazon-Client gibt. Weitere Informationen finden Sie unter Überlegungen zum Betriebssystem.
-
Wenn Sie den Kernel bereits aktualisiert haben und Probleme auftreten, sollten Sie ein Downgrade auf eine kompatible Kernel-Version in Betracht ziehen:
$
sudo apt install linux-image-previous-version
-
Für persistente Kernel-Anpassungen erstellen Sie ein benutzerdefiniertes AMI mit der spezifischen Kernel-Version, die Sie benötigen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung.
Bewährte Methoden für Änderungen der Betriebssystemkonfiguration
So minimieren Sie Probleme bei Änderungen der Betriebssystemkonfiguration:
-
Verwenden Sie benutzerdefinierte Bootstrap-Aktionen: Anstatt Systemdateien direkt zu ändern, verwenden Sie
OnNodeStart
OnNodeConfigured
O-Skripte, um Änderungen auf kontrollierte Weise vorzunehmen. Weitere Informationen finden Sie unter Benutzerdefinierte Bootstrap-Aktionen. -
Benutzerdefiniert erstellen AMIs: Für wichtige Änderungen am Betriebssystem sollten Sie ein benutzerdefiniertes AMI erstellen, indem Sie die laufenden Instances verwenden,
pcluster build-image
anstatt Änderungen daran vorzunehmen. Weitere Informationen finden Sie unter AWS ParallelCluster AMI-Anpassung. -
Testen Sie zuerst die Änderungen: Bevor Sie Änderungen auf einen Produktionscluster anwenden, testen Sie sie auf einem kleinen Testcluster, um die Kompatibilität sicherzustellen.
-
Änderungen dokumentieren: Behalten Sie den Überblick über alle Änderungen an der Betriebssystemkonfiguration, um die Fehlerbehebung zu erleichtern.
-
Konfigurationsdateien sichern: Bevor Sie eine Systemkonfigurationsdatei ändern, erstellen Sie eine Backup:
$
sudo cp /etc/file.conf /etc/file.conf.bak
-
Überprüfen Sie die Protokolle nach Änderungen: Nachdem Sie Änderungen an der Betriebssystemkonfiguration vorgenommen haben, überprüfen Sie die Protokolle auf Fehler:
$
less /var/log/cfn-init.log
$
less /var/log/chef-client.log
Wenn Sie diese Richtlinien befolgen, können Sie das Risiko minimieren, dass Änderungen an der Betriebssystemkonfiguration zu Clusterausfällen führen, und auftretende Probleme effektiver beheben.