Definindo configurações personalizadas do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Definindo configurações personalizadas do Slurm no PCS AWS

Use configurações personalizadas do Slurm para definir parâmetros adicionais do Slurm em recursos de cluster, fila e grupo de nós de computação. Esta versão adiciona suporte às configurações do Slurm nos recursos do Queue, fornecendo controle granular sobre comportamentos específicos da partição.

Benefícios das configurações personalizadas do Slurm

As configurações personalizadas do Slurm fornecem controle sofisticado sobre seu ambiente de HPC AWS baseado em PC. Você pode implementar uma contabilidade detalhada, aplicar controles de acesso e otimizar a execução da carga de trabalho por meio de quality-of-service configurações e políticas de preempção. Esses recursos garantem que trabalhos essenciais recebam os recursos necessários e, ao mesmo tempo, mantêm a utilização eficiente do cluster. Se você gerencia cargas de trabalho aceleradas por GPU, implementa um agendamento de compartilhamento justo ou controla os ciclos de vida das tarefas, as configurações personalizadas ajudam a alinhar sua infraestrutura de HPC aos requisitos operacionais e aos objetivos da pesquisa.

Definindo configurações personalizadas

As configurações personalizadas do Slurm podem ser definidas por meio do AWS console, da CLI ou SDKs durante a criação do recurso ou modificadas posteriormente por meio de operações de atualização.

AWS Management Console

Navegue até Configurações adicionais do agendador na página de criação ou edição para qualquer tipo de recurso (cluster, fila ou grupo de nós de computação).

Para adicionar uma nova configuração
  1. Escolha Adicionar nova configuração.

  2. Selecione um nome de parâmetro na lista suspensa (que inclui breves descrições de parâmetros).

  3. Forneça o valor correspondente.

Para cancelar a definição de uma configuração personalizada
  1. Escolha Remover ao lado do parameter/value par relevante.

  2. Crie ou atualize o recurso.

AWS CLI

Para gerenciamento programático de configurações personalizadas, use o SlurmCustomSettings campo nas operações de criação ou atualização.

exemplo — Atualizando o Prolog parâmetro em um cluster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
exemplo — Configurando uma fila para estar Default em um cluster
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
exemplo — Configuração personalizada Features em um grupo de nós de computação
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Validação e tratamento de erros

AWS O PCS implementa um processo de validação em várias camadas para configurações personalizadas do Slurm. Durante as operações de criação e atualização, realizamos validações síncronas que incluem:

  • Verificações em nível de campo: validamos configurações individuais para tipos de dados corretos, valores permitidos e requisitos de formato. Por exemplo, garantimos que os valores de tempo estejam no formato correto do Slurm e que os valores booleanos usem representações booleanas aceitas do Slurm.

  • Validações sensíveis ao contexto: algumas configurações são verificadas em relação ao contexto de configuração mais amplo. Por exemplo, certos parâmetros só são válidos quando a contabilidade do Slurm está ativada.

  • Consistência entre configurações: verificamos se as opções mutuamente exclusivas não estão definidas juntas e se as configurações interdependentes estão definidas corretamente.

Se a validação falhar, você receberá um ValidationException código de erro específico (por exemplo, InvalidInput), uma mensagem de erro clara descrevendo o problema e uma lista dos campos inválidos e seus respectivos detalhes de erro.

Embora muitos problemas sejam detectados durante essa validação inicial, algumas interações complexas entre as configurações só podem se tornar aparentes ao aplicar a configuração. Nesses casos, a operação falhará com uma mensagem de erro informativa e quaisquer alterações parciais serão revertidas.

Limitações

AWS O PCS implementa uma abordagem de lista de permissões para proteger a segurança do serviço e a estabilidade operacional. As configurações que podem comprometer a segurança da conta de serviço ou interferir nos recursos do serviço gerenciado são restritas. No entanto, avaliamos continuamente as necessidades dos clientes e podemos adicionar suporte para configurações adicionais com base nos comentários dos clientes.