Perguntas frequentes sobre as versões do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Perguntas frequentes sobre as versões do Slurm no PCS AWS

AWS O PCS mantém o suporte para várias versões do Slurm. Quando uma nova versão do Slurm é introduzida, o AWS PCS fornece suporte técnico e patches de segurança até que essa versão chegue ao fim do suporte (EOS) do SchedMD. AWS PCS se refere à data EOS de uma versão do Slurm como fim da vida útil (EOL) para ser consistente com a terminologia. AWS

Por quanto tempo o AWS PCS suporta a versão Slurm?

AWS O suporte do PCS para as versões do Slurm está alinhado com os ciclos de suporte do SchedMD para as versões principais. AWS O PCS suporta a versão atual e as duas versões principais anteriores mais recentes. Quando o SchedMD lança uma nova versão principal, o AWS PCS encerra o suporte para a versão mais antiga suportada. AWS O PCS lança novas versões principais do Slurm o mais rápido possível, mas pode haver um atraso entre o lançamento do SchedMD e sua disponibilidade no PCS. AWS

Como meus clusters obtêm novos lançamentos da versão de patch do Slurm?

Para resolver bugs e correções de segurança, o AWS PCS foi projetado para aplicar automaticamente patches aos controladores de cluster que são executados em contas internas de propriedade do serviço. Para instalar patches em EC2 instâncias em sua Conta da AWS, atualize a Amazon Machine Image (AMI) para seus grupos de nós de computação e atualize os grupos de nós de computação para usar a AMI atualizada. Para obter mais informações, consulte Imagens personalizadas da Amazon Machine (AMIs) para AWS PCS.

nota

Os controladores Slurm não estão disponíveis enquanto os atualizamos. Os trabalhos em execução não são afetados. Os trabalhos enviados antes que o controlador do cluster fique indisponível são retidos até que o controlador esteja disponível.

Como sou informado sobre um próximo evento de EOL da versão Slurm?

Enviamos uma mensagem de e-mail 6 meses antes da data de EOL. Enviamos uma mensagem de e-mail a cada mês antes do EOL, com uma mensagem de e-mail final 1 semana antes da data do EOL. Após a data de EOL, enviamos mensagens de e-mail mensais por 12 meses para clientes que executam clusters AWS PCS com versões do EOL Slurm. Podemos suspender um cluster com uma versão do EOL Slurm se forem identificadas vulnerabilidades de segurança para essa versão.

Como posso determinar se a versão do Slurm usada pelo meu cluster está executando uma versão do EOL Slurm?

Enviamos uma mensagem de e-mail para notificá-lo de que você tem um cluster em execução com uma versão do EOL Slurm. Publicamos um alerta nos AWS Health Dashboard alertas que contém os detalhes de seus clusters com as versões do EOL Slurm. Você também pode usar o console AWS PCS para identificar os clusters com versões do EOL Slurm.

O que devo fazer se minha versão do Slurm estiver próxima ou além do EOL?

Crie um novo cluster com uma versão mais recente compatível do Slurm e atualize a versão do Slurm em seu grupo de nós de computação. AMIs A versão do Slurm nas suas EC2 instâncias AMIs e em execução não pode estar mais do que duas versões atrás da versão do Slurm do cluster. Para obter mais informações, consulte Imagens personalizadas da Amazon Machine (AMIs) para AWS PCS.

O que acontecerá se eu não mudar para uma versão mais recente do Slurm até a data de EOL?

Você não pode criar novos clusters com uma versão do EOL Slurm. Os clusters existentes podem operar por até 12 meses sem AWS suporte, e nenhuma ação imediata é necessária para manter sua operação. Após a data de EOL, o suporte, as atualizações de segurança e a disponibilidade não são garantidos. Podemos suspender um cluster por motivos de segurança. É altamente recomendável que você use uma versão compatível do Slurm para manter a segurança e o suporte de seus clusters AWS PCS.

Quais são os riscos de operar um cluster com versões do EOL Slurm?

Clusters com versões do EOL Slurm apresentam riscos operacionais e de segurança significativos. Sem o monitoramento ativo do SchedMD, as vulnerabilidades de segurança podem permanecer sem serem detectadas ou resolvidas. Se vulnerabilidades críticas forem descobertas, poderemos suspender seus clusters imediatamente.

O que acontece com meus trabalhos, recursos de computação, armazenamento e rede do cluster quando meu cluster é suspenso?

Todos os recursos gerenciados pelo AWS PCS são encerrados. Isso inclui o controlador Slurm, grupos de nós de computação e instâncias. EC2 Todos os trabalhos executados em instâncias de computação são encerrados imediatamente e o cluster entra em um estado suspenso. Os recursos gerenciados pelo cliente, como sistemas de arquivos externos, permanecem intactos. Você pode usar o console AWS PCS e as ações da API para acessar a configuração do cluster.

Posso reiniciar um cluster suspenso para retomar seus trabalhos restantes?

Não, você não pode reiniciar um cluster suspenso. Você pode usar a configuração do cluster suspenso para criar um novo cluster com uma versão compatível do Slurm. Você pode executar os trabalhos restantes se os salvou em um sistema de arquivos externo.

Posso solicitar uma extensão além do período de carência de 12 meses?

Não, você não pode solicitar uma extensão para executar seu cluster além do período de carência de 12 meses. Oferecemos um prazo estendido para ajudá-lo a mudar para uma versão compatível do Slurm. Para evitar interrupções nas operações do cluster, recomendamos que você alterne antes que sua versão do Slurm atinja o EOL.