Résolution des modifications de configuration du système d'exploitation à l'origine d'erreurs ou de défaillances - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des modifications de configuration du système d'exploitation à l'origine d'erreurs ou de défaillances

Lorsque vous modifiez la configuration du système d'exploitation sur AWS ParallelCluster les nœuds, divers problèmes peuvent survenir et entraîner des échecs de création, de mise à jour ou de fonctionnement du cluster. Cette section fournit des conseils pour identifier et résoudre les problèmes courants liés à la configuration du système d'exploitation.

Problèmes courants de configuration du système d'exploitation

Problèmes de configuration locale

L'un des problèmes de configuration du système d'exploitation les plus courants est lié aux paramètres régionaux. Si vous constatez des erreurs telles que :

cannot change locale (en_US.utf-8) because it has an invalid name

Cela se produit généralement lorsque :

  • Un processus yum d'installation a échoué et a laissé les paramètres régionaux dans un état incohérent

  • Un utilisateur a mis fin à un processus d'installation prématurément

  • Les packages régionaux sont manquants ou endommagés

Comment diagnostiquer

  1. Vérifiez si vous pouvez passer à l'utilisateur pcluster-admin :

    $ su - pcluster-admin

    Si un message d'erreur de ce type s'affichecannot change locale...no such file or directory, cela confirme le problème.

  2. Vérifiez les paramètres régionaux disponibles :

    $ localedef --list

    Si cela renvoie une liste vide ou ne contient pas les paramètres régionaux par défaut, votre configuration locale est interrompue.

  3. Vérifiez la dernière yum commande :

    $ yum history $ yum history info #ID

    Si le dernier ID n'en a pasReturn-Code: Success, les scripts de post-installation ne se sont peut-être pas exécutés correctement.

Comment résoudre

Reconstruisez les paramètres régionaux en réinstallant les modules linguistiques :

$ sudo yum reinstall glibc-all-langpacks

Après la reconstruction, vérifiez que le problème est résolu en exécutant :

$ su - pcluster-admin

Si aucune erreur ou aucun avertissement n'apparaît, le problème a été résolu.

Conflits de packages du système

Lors de l'installation de packages personnalisés ou de la modification de packages système, des conflits peuvent survenir et empêcher le bon fonctionnement du cluster.

Comment diagnostiquer

  1. Consultez le journal chef-client pour détecter les erreurs liées au package :

    $ less /var/log/chef-client.log
  2. Recherchez les conflits de dépendance des packages dans le journal cfn-init :

    $ less /var/log/cfn-init.log

Comment résoudre

  1. Si un package spécifique pose problème, essayez de le réinstaller :

    $ sudo yum reinstall package-name
  2. En cas de conflit de dépendance, vous devrez peut-être supprimer les packages en conflit :

    $ sudo yum remove conflicting-package
  3. Si le problème persiste, envisagez de créer une AMI personnalisée avec les packages requis préinstallés à l'aide de la pcluster build-image commande. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.

Modifications du fichier de configuration du système

La modification des fichiers de configuration système critiques peut provoquer des défaillances de clusters, en particulier si ces fichiers sont gérés par AWS ParallelCluster.

Comment diagnostiquer

  1. Vérifiez les erreurs dans le journal chef-client qui mentionnent des fichiers de configuration spécifiques :

    $ grep -i "config" /var/log/chef-client.log
  2. Recherchez les erreurs d'autorisation ou de syntaxe dans les fichiers de configuration :

    $ less /var/log/cfn-init.log

Comment résoudre

  1. Restaurez les fichiers de configuration modifiés dans leur état d'origine :

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Si vous devez apporter des modifications persistantes aux fichiers de configuration du système, utilisez des actions d'amorçage personnalisées au lieu de modifier directement les fichiers :

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Pour de plus amples informations, veuillez consulter Actions de bootstrap personnalisées.

  3. Pour les modifications de configuration qui doivent être apportées directement aux fichiers système, pensez à créer une AMI personnalisée. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.

Mises à jour du noyau et problèmes de compatibilité

Les mises à jour du noyau peuvent entraîner des problèmes de compatibilité avec certains AWS services, en particulier avec Amazon FSx for Lustre.

Comment diagnostiquer

  1. Vérifiez si les mises à jour du noyau ont été appliquées :

    $ uname -r
  2. Recherchez les échecs de FSx montage d'Amazon dans les journaux :

    $ grep -i "fsx" /var/log/chef-client.log

Comment résoudre

  1. Pour Ubuntu 22.04, évitez de mettre à jour le dernier noyau car il n'existe aucun FSx client Amazon pour ce noyau. Pour de plus amples informations, veuillez consulter Considérations relatives au système d'exploitation.

  2. Si vous avez déjà mis à jour le noyau et que vous rencontrez des problèmes, pensez à le rétrograder vers une version compatible :

    $ sudo apt install linux-image-previous-version
  3. Pour les personnalisations persistantes du noyau, créez une AMI personnalisée avec la version de noyau spécifique dont vous avez besoin. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.

Bonnes pratiques pour les modifications de configuration du système d'exploitation

Pour minimiser les problèmes liés aux modifications de configuration du système d'exploitation :

  1. Utilisez des actions Bootstrap personnalisées : au lieu de modifier directement les fichiers système, utilisez OnNodeStart des OnNodeConfigured scripts pour apporter des modifications de manière contrôlée. Pour de plus amples informations, veuillez consulter Actions de bootstrap personnalisées.

  2. Création personnalisée AMIs : pour les modifications importantes du système d'exploitation, créez une AMI personnalisée en utilisant pcluster build-image plutôt que d'apporter des modifications aux instances en cours d'exécution. Pour de plus amples informations, veuillez consulter AWS ParallelCluster Personnalisation de l'AMI.

  3. Testez d'abord les modifications : avant d'appliquer des modifications à un cluster de production, testez-les sur un petit cluster de test pour garantir la compatibilité.

  4. Modifications apportées aux documents : gardez une trace de toutes les modifications apportées à la configuration du système d'exploitation pour faciliter le dépannage.

  5. Fichiers de configuration de sauvegarde : Avant de modifier un fichier de configuration système, créez une sauvegarde :

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Vérifier les journaux après les modifications : après avoir modifié la configuration du système d'exploitation, vérifiez les journaux pour détecter d'éventuelles erreurs :

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

En suivant ces directives, vous pouvez minimiser le risque que des modifications de configuration du système d'exploitation entraînent des défaillances de clusters et résoudre plus efficacement les problèmes éventuels.