Resolvendo alterações na configuração do sistema operacional que causam erros ou falhas - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Resolvendo alterações na configuração do sistema operacional que causam erros ou falhas

Ao fazer alterações na configuração do sistema operacional AWS ParallelCluster nos nós, podem surgir vários problemas que podem causar falhas na criação, atualização ou operação do cluster. Esta seção fornece orientação sobre como identificar e resolver problemas comuns relacionados à configuração do sistema operacional.

Problemas comuns de configuração do sistema operacional

Problemas de configuração de localidade

Um dos problemas mais comuns de configuração do sistema operacional está relacionado às configurações locais. Se você ver erros como:

cannot change locale (en_US.utf-8) because it has an invalid name

Isso geralmente ocorre quando:

  • O processo de yum instalação não teve êxito e deixou as configurações locais em um estado inconsistente

  • Um usuário encerrou um processo de instalação prematuramente

  • Pacotes locais estão ausentes ou corrompidos

Como diagnosticar

  1. Verifique se você pode mudar para o usuário pcluster-admin:

    $ su - pcluster-admin

    Se você ver um erro como essecannot change locale...no such file or directory, isso confirma o problema.

  2. Verifique os locais disponíveis:

    $ localedef --list

    Se isso retornar uma lista vazia ou não contiver a localidade padrão, sua configuração de localidade está quebrada.

  3. Confira o último yum comando:

    $ yum history $ yum history info #ID

    Se a última ID não tiver Return-Code: Success, os scripts de pós-instalação podem não ter sido executados com êxito.

Como resolver

Reconstrua a localidade reinstalando os pacotes de idiomas:

$ sudo yum reinstall glibc-all-langpacks

Após a reconstrução, verifique se o problema foi corrigido executando:

$ su - pcluster-admin

Se nenhum erro ou aviso for exibido, o problema foi resolvido.

Conflitos de pacotes do SO

Ao instalar pacotes personalizados ou modificar pacotes do sistema, podem surgir conflitos que impedem a operação adequada do cluster.

Como diagnosticar

  1. Verifique se há erros relacionados ao pacote no log do chef-client:

    $ less /var/log/chef-client.log
  2. Procure conflitos de dependência de pacotes no log cfn-init:

    $ less /var/log/cfn-init.log

Como resolver

  1. Se um pacote específico estiver causando problemas, tente reinstalá-lo:

    $ sudo yum reinstall package-name
  2. Para conflitos de dependência, talvez seja necessário remover pacotes conflitantes:

    $ sudo yum remove conflicting-package
  3. Se o problema persistir, considere criar uma AMI personalizada com os pacotes necessários pré-instalados usando o pcluster build-image comando. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.

Modificações no arquivo de configuração do sistema

A modificação de arquivos críticos de configuração do sistema pode causar falhas no cluster, especialmente se esses arquivos forem gerenciados pelo AWS ParallelCluster.

Como diagnosticar

  1. Verifique se há erros no log do chef-client que mencionam arquivos de configuração específicos:

    $ grep -i "config" /var/log/chef-client.log
  2. Procure erros de permissão ou sintaxe nos arquivos de configuração:

    $ less /var/log/cfn-init.log

Como resolver

  1. Restaure os arquivos de configuração modificados para seu estado original:

    $ sudo cp /etc/file.conf.bak /etc/file.conf
  2. Se você precisar fazer alterações persistentes nos arquivos de configuração do sistema, use ações de bootstrap personalizadas em vez de modificar diretamente os arquivos:

    HeadNode: CustomActions: OnNodeConfigured: Script: s3://bucket-name/config-script.sh

    Para obter mais informações, consulte Ações de bootstrap personalizadas.

  3. Para alterações de configuração que devem ser feitas diretamente nos arquivos do sistema, considere criar uma AMI personalizada. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.

Atualizações do kernel e problemas de compatibilidade

As atualizações do kernel podem causar problemas de compatibilidade com determinados AWS serviços, especialmente com o Amazon FSx for Lustre.

Como diagnosticar

  1. Verifique se as atualizações do kernel foram aplicadas:

    $ uname -r
  2. Procure falhas de FSx montagem da Amazon nos registros:

    $ grep -i "fsx" /var/log/chef-client.log

Como resolver

  1. Para o Ubuntu 22.04, evite atualizar para o kernel mais recente, pois não há nenhum FSx cliente Amazon para esse kernel. Para obter mais informações, consulte Considerações sobre sistemas operacionais.

  2. Se você já atualizou o kernel e está enfrentando problemas, considere fazer o downgrade para uma versão compatível do kernel:

    $ sudo apt install linux-image-previous-version
  3. Para personalizações persistentes do kernel, crie uma AMI personalizada com a versão específica do kernel de que você precisa. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.

Práticas recomendadas para alterações na configuração do sistema operacional

Para minimizar os problemas ao fazer alterações na configuração do sistema operacional:

  1. Use ações personalizadas do Bootstrap: em vez de modificar diretamente os arquivos do sistema, use OnNodeStart nossos OnNodeConfigured scripts para fazer alterações de maneira controlada. Para obter mais informações, consulte Ações de bootstrap personalizadas.

  2. Crie instâncias personalizadas AMIs: para modificações significativas no sistema operacional, crie uma AMI personalizada usando, pcluster build-image em vez de fazer alterações, nas instâncias em execução. Para obter mais informações, consulte AWS ParallelCluster Personalização da AMI.

  3. Teste as alterações primeiro: antes de aplicar as alterações em um cluster de produção, teste-as em um pequeno cluster de teste para garantir a compatibilidade.

  4. Alterações no documento: acompanhe todas as alterações de configuração do sistema operacional feitas para facilitar a solução de problemas.

  5. Arquivos de configuração de backup: antes de modificar qualquer arquivo de configuração do sistema, crie um backup:

    $ sudo cp /etc/file.conf /etc/file.conf.bak
  6. Verifique os registros após as alterações: depois de fazer alterações na configuração do sistema operacional, verifique se há erros nos registros:

    $ less /var/log/cfn-init.log $ less /var/log/chef-client.log

Seguindo essas diretrizes, você pode minimizar o risco de alterações na configuração do sistema operacional causarem falhas no cluster e solucionar com mais eficiência quaisquer problemas que surjam.