Atualizando um cluster no AWS PCS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Atualizando um cluster no AWS PCS

AWS O PCS permite que você atualize as configurações do cluster após a criação por meio da UpdateCluster API ou do console. Você pode modificar as configurações do cluster sem reconstruir sua infraestrutura, o que reduz a sobrecarga operacional e minimiza as interrupções.

Benefícios das atualizações de cluster

A atualização dos clusters AWS PCS permite que você adapte a infraestrutura de HPC aos novos requisitos sem interromper o serviço. As alterações na configuração levam minutos em vez da hora ou mais necessária para reconstruir clusters. Esse recurso é importante para ambientes de produção que exigem tempo mínimo de inatividade e para equipes que precisam ajustar as configurações do cluster à medida que os padrões de carga de trabalho mudam.

Alterações de configuração suportadas

Você pode modificar três categorias principais de configurações:

  • Configuração contábil - ative ou desative a contabilidade gerenciada e defina as configurações de retenção.

  • Comportamento de redução de escala - ajuste o scaleDownIdleTime parâmetro, que controla por quanto tempo as instâncias dinâmicas permanecem inativas antes que o AWS PCS as encerre automaticamente.

  • Configurações personalizadas do Slurm - modifique qualquer uma das configurações do Slurm suportadas que se aplicam no nível do cluster, incluindo Prolog, Epilog e. SelectTypeParameters

Limitações

Você não pode modificar determinadas configurações após a criação do cluster. Isso inclui:

  • Configurações do grupo de segurança

  • Seleção de sub-rede VPC

  • Tamanho do cluster

  • Versão Slurm

  • Nome do cluster

Essas configurações são fundamentais para a arquitetura do cluster e exigem a criação de um novo cluster para modificá-las.

Pré-requisitos para atualizações de cluster

Antes de atualizar um cluster, verifique se as seguintes condições foram atendidas:

  • O cluster deve estar em ACTIVEUPDATE_FAILED, ou SUSPENDED estado

  • Todos os recursos associados (filas, grupos de nós de computação) devem estar no estado ACTIVE

  • Você deve ter as permissões apropriadas do IAM para a UpdateCluster operação

  • Nenhuma outra operação de atualização pode estar em andamento

Processo de atualização e impacto no trabalho

Durante uma operação de atualização, os nós de computação continuam executando trabalhos existentes mesmo quando o controlador de cluster fica brevemente inacessível. No entanto, o sistema não pode aceitar novos envios de trabalhos ou tomar decisões de agendamento durante esse período.

Você pode monitorar as atualizações do cluster por meio das interfaces do console e da API. O cluster passará pelos seguintes estados durante uma atualização:

  • UPDATING- Atualização em andamento

  • ACTIVE- Atualização concluída com sucesso

  • UPDATE_FAILED- A atualização encontrou um erro

Faturamento durante as atualizações

As cobranças horárias padrão do seu cluster AWS PCS continuam durante as operações de atualização. Quando você atualiza um cluster para desativar a contabilização, a cobrança pelo recurso de contabilidade é interrompida assim que o cluster entra no UPDATING estado. Ao ativar a contabilidade, o faturamento não começa até que o cluster conclua com êxito a atualização e retorne ao ACTIVE estado.