As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Resolvendo alterações na configuração do sistema operacional que causam erros ou falhas
Ao fazer alterações na configuração do sistema operacional AWS ParallelCluster nos nós, podem surgir vários problemas que podem causar falhas na criação, atualização ou operação do cluster. Esta seção fornece orientação sobre como identificar e resolver problemas comuns relacionados à configuração do sistema operacional.
Problemas comuns de configuração do sistema operacional
Problemas de configuração de localidade
Um dos problemas mais comuns de configuração do sistema operacional está relacionado às configurações locais. Se você ver erros como:
cannot change locale (en_US.utf-8) because it has an invalid name
Isso geralmente ocorre quando:
-
O processo de
yum
instalação não teve êxito e deixou as configurações locais em um estado inconsistente -
Um usuário encerrou um processo de instalação prematuramente
-
Pacotes locais estão ausentes ou corrompidos
Como diagnosticar
-
Verifique se você pode mudar para o usuário pcluster-admin:
$
su - pcluster-admin
Se você ver um erro como esse
cannot change locale...no such file or directory
, isso confirma o problema. -
Verifique os locais disponíveis:
$
localedef --list
Se isso retornar uma lista vazia ou não contiver a localidade padrão, sua configuração de localidade está quebrada.
-
Confira o último
yum
comando:$
yum history
$
yum history info #ID
Se a última ID não tiver
Return-Code: Success
, os scripts de pós-instalação podem não ter sido executados com êxito.
Como resolver
Reconstrua a localidade reinstalando os pacotes de idiomas:
$
sudo yum reinstall glibc-all-langpacks
Após a reconstrução, verifique se o problema foi corrigido executando:
$
su - pcluster-admin
Se nenhum erro ou aviso for exibido, o problema foi resolvido.
Conflitos de pacotes do SO
Ao instalar pacotes personalizados ou modificar pacotes do sistema, podem surgir conflitos que impedem a operação adequada do cluster.
Como diagnosticar
-
Verifique se há erros relacionados ao pacote no log do chef-client:
$
less /var/log/chef-client.log
-
Procure conflitos de dependência de pacotes no log cfn-init:
$
less /var/log/cfn-init.log
Como resolver
-
Se um pacote específico estiver causando problemas, tente reinstalá-lo:
$
sudo yum reinstall package-name
-
Para conflitos de dependência, talvez seja necessário remover pacotes conflitantes:
$
sudo yum remove conflicting-package
-
Se o problema persistir, considere criar uma AMI personalizada com os pacotes necessários pré-instalados usando o
pcluster build-image
comando. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.
Modificações no arquivo de configuração do sistema
A modificação de arquivos críticos de configuração do sistema pode causar falhas no cluster, especialmente se esses arquivos forem gerenciados pelo AWS ParallelCluster.
Como diagnosticar
-
Verifique se há erros no log do chef-client que mencionam arquivos de configuração específicos:
$
grep -i "config" /var/log/chef-client.log
-
Procure erros de permissão ou sintaxe nos arquivos de configuração:
$
less /var/log/cfn-init.log
Como resolver
-
Restaure os arquivos de configuração modificados para seu estado original:
$
sudo cp /etc/file.conf.bak /etc/file.conf
-
Se você precisar fazer alterações persistentes nos arquivos de configuração do sistema, use ações de bootstrap personalizadas em vez de modificar diretamente os arquivos:
HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh
Para obter mais informações, consulte Ações de bootstrap personalizadas.
-
Para alterações de configuração que devem ser feitas diretamente nos arquivos do sistema, considere criar uma AMI personalizada. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.
Atualizações do kernel e problemas de compatibilidade
As atualizações do kernel podem causar problemas de compatibilidade com determinados AWS serviços, especialmente com o Amazon FSx for Lustre.
Como diagnosticar
-
Verifique se as atualizações do kernel foram aplicadas:
$
uname -r
-
Procure falhas de FSx montagem da Amazon nos registros:
$
grep -i "fsx" /var/log/chef-client.log
Como resolver
-
Para o Ubuntu 22.04, evite atualizar para o kernel mais recente, pois não há nenhum FSx cliente Amazon para esse kernel. Para obter mais informações, consulte Considerações sobre sistemas operacionais.
-
Se você já atualizou o kernel e está enfrentando problemas, considere fazer o downgrade para uma versão compatível do kernel:
$
sudo apt install linux-image-previous-version
-
Para personalizações persistentes do kernel, crie uma AMI personalizada com a versão específica do kernel de que você precisa. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.
Práticas recomendadas para alterações na configuração do sistema operacional
Para minimizar os problemas ao fazer alterações na configuração do sistema operacional:
-
Use ações personalizadas do Bootstrap: em vez de modificar diretamente os arquivos do sistema, use
OnNodeStart
nossosOnNodeConfigured
scripts para fazer alterações de maneira controlada. Para obter mais informações, consulte Ações de bootstrap personalizadas. -
Crie instâncias personalizadas AMIs: para modificações significativas no sistema operacional, crie uma AMI personalizada usando,
pcluster build-image
em vez de fazer alterações, nas instâncias em execução. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI. -
Teste as alterações primeiro: antes de aplicar as alterações em um cluster de produção, teste-as em um pequeno cluster de teste para garantir a compatibilidade.
-
Alterações no documento: acompanhe todas as alterações de configuração do sistema operacional feitas para facilitar a solução de problemas.
-
Arquivos de configuração de backup: antes de modificar qualquer arquivo de configuração do sistema, crie um backup:
$
sudo cp /etc/file.conf /etc/file.conf.bak
-
Verifique os registros após as alterações: depois de fazer alterações na configuração do sistema operacional, verifique se há erros nos registros:
$
less /var/log/cfn-init.log
$
less /var/log/chef-client.log
Seguindo essas diretrizes, você pode minimizar o risco de alterações na configuração do sistema operacional causarem falhas no cluster e solucionar com mais eficiência quaisquer problemas que surjam.