Resolver los cambios en la configuración del sistema operativo que provocan errores o fallas - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Resolver los cambios en la configuración del sistema operativo que provocan errores o fallas

Al realizar cambios en la configuración del sistema operativo en AWS ParallelCluster los nodos, pueden surgir varios problemas que pueden provocar errores en la creación, la actualización o el funcionamiento del clúster. Esta sección proporciona orientación sobre cómo identificar y resolver problemas comunes relacionados con la configuración del sistema operativo.

Problemas comunes de configuración del sistema operativo

Problemas de configuración regional

Uno de los problemas de configuración del sistema operativo más comunes está relacionado con la configuración regional. Si ves errores como los siguientes:

cannot change locale (en_US.utf-8) because it has an invalid name

Esto suele ocurrir cuando:

  • Un proceso yum de instalación no se realizó correctamente y dejó la configuración regional en un estado incoherente

  • Un usuario ha finalizado un proceso de instalación de forma prematura

  • Faltan paquetes de configuración regional o están dañados

¿Cómo diagnosticar

  1. Comprueba si puedes cambiar al usuario pcluster-admin:

    $ su - pcluster-admin

    Si ves un error como estecannot change locale...no such file or directory, esto confirma el problema.

  2. Comprueba las ubicaciones disponibles:

    $ localedef --list

    Si esto devuelve una lista vacía o no contiene la configuración regional predeterminada, la configuración regional no funciona.

  3. Comprueba el último yum comando:

    $ yum history $ yum history info #ID

    Si el último identificador no lo tiene Return-Code: Success, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.

Cómo resolverlo

Reconstruya la configuración regional reinstalando los paquetes de idioma:

$ sudo yum reinstall glibc-all-langpacks

Tras la reconstrucción, compruebe que el problema se ha solucionado ejecutando lo siguiente:

$ su - pcluster-admin

Si no aparece ningún error o advertencia, significa que el problema se ha resuelto.

Conflictos entre paquetes de SO

Al instalar paquetes personalizados o modificar los paquetes del sistema, pueden surgir conflictos que impidan el correcto funcionamiento del clúster.

¿Cómo diagnosticar

  1. Consulte el registro de chef-client para ver si hay errores relacionados con el paquete:

    $ less /var/log/chef-client.log
  2. Busque conflictos de dependencia de paquetes en el registro cfn-init:

    $ less /var/log/cfn-init.log

Cómo resolverlos

  1. Si un paquete específico está causando problemas, intenta volver a instalarlo:

    $ sudo yum reinstall package-name
  2. En caso de conflictos de dependencia, es posible que tengas que eliminar los paquetes conflictivos:

    $ sudo yum remove conflicting-package
  3. Si el problema persiste, considere la posibilidad de crear una AMI personalizada con los paquetes necesarios preinstalados mediante el pcluster build-image comando. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.

Modificaciones en el archivo de configuración del sistema

La modificación de los archivos de configuración críticos del sistema puede provocar errores en el clúster, especialmente si estos archivos están gestionados por AWS ParallelCluster.

¿Cómo diagnosticar

  1. Compruebe si hay errores en el registro del chef-cliente que mencionen archivos de configuración específicos:

    $ grep -i "config" /var/log/chef-client.log
  2. Busque errores de permisos o de sintaxis en los archivos de configuración:

    $ less /var/log/cfn-init.log

Cómo resolverlos

  1. Restaure los archivos de configuración modificados a su estado original:

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Si necesita realizar cambios persistentes en los archivos de configuración del sistema, utilice acciones de arranque personalizadas en lugar de modificar los archivos directamente:

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Para obtener más información, consulte Acciones de arranque personalizadas.

  3. Para los cambios de configuración que deben realizarse directamente en los archivos del sistema, considere la posibilidad de crear una AMI personalizada. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.

Problemas de compatibilidad y actualizaciones del núcleo

Las actualizaciones del núcleo pueden provocar problemas de compatibilidad con determinados AWS servicios, especialmente con Amazon FSx for Lustre.

¿Cómo diagnosticar

  1. Compruebe si se han aplicado las actualizaciones del núcleo:

    $ uname -r
  2. Busca errores de FSx montaje en Amazon en los registros:

    $ grep -i "fsx" /var/log/chef-client.log

¿Cómo resolverlos?

  1. Para Ubuntu 22.04, evita actualizar a la última versión del núcleo, ya que no hay ningún FSx cliente de Amazon para ese núcleo. Para obtener más información, consulte Consideraciones de los sistemas operativos.

  2. Si ya ha actualizado el núcleo y tiene problemas, considere la posibilidad de cambiarlo a una versión de núcleo compatible:

    $ sudo apt install linux-image-previous-version
  3. Para las personalizaciones persistentes del núcleo, cree una AMI personalizada con la versión específica del núcleo que necesite. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.

Prácticas recomendadas para los cambios en la configuración del sistema operativo

Para minimizar los problemas al realizar cambios en la configuración del sistema operativo:

  1. Utilice acciones de Bootstrap personalizadas: en lugar de modificar directamente los archivos del sistema, utilice OnNodeStart OnNodeConfigured nuestros scripts para realizar cambios de forma controlada. Para obtener más información, consulte Acciones de arranque personalizadas.

  2. Crear una AMI personalizada AMIs: para realizar modificaciones importantes en el sistema operativo, cree una AMI personalizada utilizando, pcluster build-image en lugar de realizar cambios en las instancias en ejecución. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.

  3. Pruebe primero los cambios: antes de aplicar los cambios a un clúster de producción, pruébelos en un clúster de prueba pequeño para garantizar la compatibilidad.

  4. Documente los cambios: lleve un registro de todos los cambios en la configuración del sistema operativo realizados para facilitar la solución de problemas.

  5. Archivos de configuración de respaldo: antes de modificar cualquier archivo de configuración del sistema, cree una copia de seguridad:

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Compruebe los registros después de realizar cambios: después de realizar cambios en la configuración del sistema operativo, compruebe si hay algún error en los registros:

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

Si sigue estas pautas, puede minimizar el riesgo de que los cambios en la configuración del sistema operativo provoquen errores en el clúster y solucionar de forma más eficaz cualquier problema que pueda surgir.