Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Resolver los cambios en la configuración del sistema operativo que provocan errores o fallas
Al realizar cambios en la configuración del sistema operativo en AWS ParallelCluster los nodos, pueden surgir varios problemas que pueden provocar errores en la creación, la actualización o el funcionamiento del clúster. Esta sección proporciona orientación sobre cómo identificar y resolver problemas comunes relacionados con la configuración del sistema operativo.
Problemas comunes de configuración del sistema operativo
Problemas de configuración regional
Uno de los problemas de configuración del sistema operativo más comunes está relacionado con la configuración regional. Si ves errores como los siguientes:
cannot change locale (en_US.utf-8) because it has an invalid name
Esto suele ocurrir cuando:
-
Un proceso
yum
de instalación no se realizó correctamente y dejó la configuración regional en un estado incoherente -
Un usuario ha finalizado un proceso de instalación de forma prematura
-
Faltan paquetes de configuración regional o están dañados
¿Cómo diagnosticar
-
Comprueba si puedes cambiar al usuario pcluster-admin:
$
su - pcluster-admin
Si ves un error como este
cannot change locale...no such file or directory
, esto confirma el problema. -
Comprueba las ubicaciones disponibles:
$
localedef --list
Si esto devuelve una lista vacía o no contiene la configuración regional predeterminada, la configuración regional no funciona.
-
Comprueba el último
yum
comando:$
yum history
$
yum history info #ID
Si el último identificador no lo tiene
Return-Code: Success
, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.
Cómo resolverlo
Reconstruya la configuración regional reinstalando los paquetes de idioma:
$
sudo yum reinstall glibc-all-langpacks
Tras la reconstrucción, compruebe que el problema se ha solucionado ejecutando lo siguiente:
$
su - pcluster-admin
Si no aparece ningún error o advertencia, significa que el problema se ha resuelto.
Conflictos entre paquetes de SO
Al instalar paquetes personalizados o modificar los paquetes del sistema, pueden surgir conflictos que impidan el correcto funcionamiento del clúster.
¿Cómo diagnosticar
-
Consulte el registro de chef-client para ver si hay errores relacionados con el paquete:
$
less /var/log/chef-client.log
-
Busque conflictos de dependencia de paquetes en el registro cfn-init:
$
less /var/log/cfn-init.log
Cómo resolverlos
-
Si un paquete específico está causando problemas, intenta volver a instalarlo:
$
sudo yum reinstall package-name
-
En caso de conflictos de dependencia, es posible que tengas que eliminar los paquetes conflictivos:
$
sudo yum remove conflicting-package
-
Si el problema persiste, considere la posibilidad de crear una AMI personalizada con los paquetes necesarios preinstalados mediante el
pcluster build-image
comando. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.
Modificaciones en el archivo de configuración del sistema
La modificación de los archivos de configuración críticos del sistema puede provocar errores en el clúster, especialmente si estos archivos están gestionados por AWS ParallelCluster.
¿Cómo diagnosticar
-
Compruebe si hay errores en el registro del chef-cliente que mencionen archivos de configuración específicos:
$
grep -i "config" /var/log/chef-client.log
-
Busque errores de permisos o de sintaxis en los archivos de configuración:
$
less /var/log/cfn-init.log
Cómo resolverlos
-
Restaure los archivos de configuración modificados a su estado original:
$
sudo cp /etc/file.conf.bak /etc/file.conf
-
Si necesita realizar cambios persistentes en los archivos de configuración del sistema, utilice acciones de arranque personalizadas en lugar de modificar los archivos directamente:
HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh
Para obtener más información, consulte Acciones de arranque personalizadas.
-
Para los cambios de configuración que deben realizarse directamente en los archivos del sistema, considere la posibilidad de crear una AMI personalizada. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.
Problemas de compatibilidad y actualizaciones del núcleo
Las actualizaciones del núcleo pueden provocar problemas de compatibilidad con determinados AWS servicios, especialmente con Amazon FSx for Lustre.
¿Cómo diagnosticar
-
Compruebe si se han aplicado las actualizaciones del núcleo:
$
uname -r
-
Busca errores de FSx montaje en Amazon en los registros:
$
grep -i "fsx" /var/log/chef-client.log
¿Cómo resolverlos?
-
Para Ubuntu 22.04, evita actualizar a la última versión del núcleo, ya que no hay ningún FSx cliente de Amazon para ese núcleo. Para obtener más información, consulte Consideraciones de los sistemas operativos.
-
Si ya ha actualizado el núcleo y tiene problemas, considere la posibilidad de cambiarlo a una versión de núcleo compatible:
$
sudo apt install linux-image-previous-version
-
Para las personalizaciones persistentes del núcleo, cree una AMI personalizada con la versión específica del núcleo que necesite. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI.
Prácticas recomendadas para los cambios en la configuración del sistema operativo
Para minimizar los problemas al realizar cambios en la configuración del sistema operativo:
-
Utilice acciones de Bootstrap personalizadas: en lugar de modificar directamente los archivos del sistema, utilice
OnNodeStart
OnNodeConfigured
nuestros scripts para realizar cambios de forma controlada. Para obtener más información, consulte Acciones de arranque personalizadas. -
Crear una AMI personalizada AMIs: para realizar modificaciones importantes en el sistema operativo, cree una AMI personalizada utilizando,
pcluster build-image
en lugar de realizar cambios en las instancias en ejecución. Para obtener más información, consulte AWS ParallelCluster Personalización de AMI. -
Pruebe primero los cambios: antes de aplicar los cambios a un clúster de producción, pruébelos en un clúster de prueba pequeño para garantizar la compatibilidad.
-
Documente los cambios: lleve un registro de todos los cambios en la configuración del sistema operativo realizados para facilitar la solución de problemas.
-
Archivos de configuración de respaldo: antes de modificar cualquier archivo de configuración del sistema, cree una copia de seguridad:
$
sudo cp /etc/file.conf /etc/file.conf.bak
-
Compruebe los registros después de realizar cambios: después de realizar cambios en la configuración del sistema operativo, compruebe si hay algún error en los registros:
$
less /var/log/cfn-init.log
$
less /var/log/chef-client.log
Si sigue estas pautas, puede minimizar el riesgo de que los cambios en la configuración del sistema operativo provoquen errores en el clúster y solucionar de forma más eficaz cualquier problema que pueda surgir.