Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Résolution des modifications de configuration du système d'exploitation à l'origine d'erreurs ou de défaillances
Lorsque vous modifiez la configuration du système d'exploitation sur AWS ParallelCluster les nœuds, divers problèmes peuvent survenir et entraîner des échecs de création, de mise à jour ou de fonctionnement du cluster. Cette section fournit des conseils pour identifier et résoudre les problèmes courants liés à la configuration du système d'exploitation.
Problèmes courants de configuration du système d'exploitation
Problèmes de configuration locale
L'un des problèmes de configuration du système d'exploitation les plus courants est lié aux paramètres régionaux. Si vous constatez des erreurs telles que :
cannot change locale (en_US.utf-8) because it has an invalid name
Cela se produit généralement lorsque :
-
Un processus
yum
d'installation a échoué et a laissé les paramètres régionaux dans un état incohérent -
Un utilisateur a mis fin à un processus d'installation prématurément
-
Les packages régionaux sont manquants ou endommagés
Comment diagnostiquer
-
Vérifiez si vous pouvez passer à l'utilisateur pcluster-admin :
$
su - pcluster-admin
Si un message d'erreur de ce type s'affiche
cannot change locale...no such file or directory
, cela confirme le problème. -
Vérifiez les paramètres régionaux disponibles :
$
localedef --list
Si cela renvoie une liste vide ou ne contient pas les paramètres régionaux par défaut, votre configuration locale est interrompue.
-
Vérifiez la dernière
yum
commande :$
yum history
$
yum history info #ID
Si le dernier ID n'en a pas
Return-Code: Success
, les scripts de post-installation ne se sont peut-être pas exécutés correctement.
Comment résoudre
Reconstruisez les paramètres régionaux en réinstallant les modules linguistiques :
$
sudo yum reinstall glibc-all-langpacks
Après la reconstruction, vérifiez que le problème est résolu en exécutant :
$
su - pcluster-admin
Si aucune erreur ou aucun avertissement n'apparaît, le problème a été résolu.
Conflits de packages du système
Lors de l'installation de packages personnalisés ou de la modification de packages système, des conflits peuvent survenir et empêcher le bon fonctionnement du cluster.
Comment diagnostiquer
-
Consultez le journal chef-client pour détecter les erreurs liées au package :
$
less /var/log/chef-client.log
-
Recherchez les conflits de dépendance des packages dans le journal cfn-init :
$
less /var/log/cfn-init.log
Comment résoudre
-
Si un package spécifique pose problème, essayez de le réinstaller :
$
sudo yum reinstall package-name
-
En cas de conflit de dépendance, vous devrez peut-être supprimer les packages en conflit :
$
sudo yum remove conflicting-package
-
Si le problème persiste, envisagez de créer une AMI personnalisée avec les packages requis préinstallés à l'aide de la
pcluster build-image
commande. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.
Modifications du fichier de configuration du système
La modification des fichiers de configuration système critiques peut provoquer des défaillances de clusters, en particulier si ces fichiers sont gérés par AWS ParallelCluster.
Comment diagnostiquer
-
Vérifiez les erreurs dans le journal chef-client qui mentionnent des fichiers de configuration spécifiques :
$
grep -i "config" /var/log/chef-client.log
-
Recherchez les erreurs d'autorisation ou de syntaxe dans les fichiers de configuration :
$
less /var/log/cfn-init.log
Comment résoudre
-
Restaurez les fichiers de configuration modifiés dans leur état d'origine :
$
sudo cp /etc/file.conf.bak /etc/file.conf
-
Si vous devez apporter des modifications persistantes aux fichiers de configuration du système, utilisez des actions d'amorçage personnalisées au lieu de modifier directement les fichiers :
HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh
Pour de plus amples informations, veuillez consulter Actions de bootstrap personnalisées.
-
Pour les modifications de configuration qui doivent être apportées directement aux fichiers système, pensez à créer une AMI personnalisée. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.
Mises à jour du noyau et problèmes de compatibilité
Les mises à jour du noyau peuvent entraîner des problèmes de compatibilité avec certains AWS services, en particulier avec Amazon FSx for Lustre.
Comment diagnostiquer
-
Vérifiez si les mises à jour du noyau ont été appliquées :
$
uname -r
-
Recherchez les échecs de FSx montage d'Amazon dans les journaux :
$
grep -i "fsx" /var/log/chef-client.log
Comment résoudre
-
Pour Ubuntu 22.04, évitez de mettre à jour le dernier noyau car il n'existe aucun FSx client Amazon pour ce noyau. Pour de plus amples informations, veuillez consulter Considérations relatives au système d'exploitation.
-
Si vous avez déjà mis à jour le noyau et que vous rencontrez des problèmes, pensez à le rétrograder vers une version compatible :
$
sudo apt install linux-image-previous-version
-
Pour les personnalisations persistantes du noyau, créez une AMI personnalisée avec la version de noyau spécifique dont vous avez besoin. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.
Bonnes pratiques pour les modifications de configuration du système d'exploitation
Pour minimiser les problèmes liés aux modifications de configuration du système d'exploitation :
-
Utilisez des actions Bootstrap personnalisées : au lieu de modifier directement les fichiers système, utilisez
OnNodeStart
desOnNodeConfigured
scripts pour apporter des modifications de manière contrôlée. Pour de plus amples informations, veuillez consulter Actions de bootstrap personnalisées. -
Création personnalisée AMIs : pour les modifications importantes du système d'exploitation, créez une AMI personnalisée en utilisant
pcluster build-image
plutôt que d'apporter des modifications aux instances en cours d'exécution. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI. -
Testez d'abord les modifications : avant d'appliquer des modifications à un cluster de production, testez-les sur un petit cluster de test pour garantir la compatibilité.
-
Modifications apportées aux documents : gardez une trace de toutes les modifications apportées à la configuration du système d'exploitation pour faciliter le dépannage.
-
Fichiers de configuration de sauvegarde : Avant de modifier un fichier de configuration système, créez une sauvegarde :
$
sudo cp /etc/file.conf /etc/file.conf.bak
-
Vérifier les journaux après les modifications : après avoir modifié la configuration du système d'exploitation, vérifiez les journaux pour détecter d'éventuelles erreurs :
$
less /var/log/cfn-init.log
$
less /var/log/chef-client.log
En suivant ces directives, vous pouvez minimiser le risque que des modifications de configuration du système d'exploitation entraînent des défaillances de clusters et résoudre plus efficacement les problèmes éventuels.