As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Instâncias de lançamento com Blocos de Capacidade (CB)
AWS ParallelCluster suporta reservas de capacidade sob demanda (ODCR) e blocos de capacidade (CB) para Machine Learning. Diferentemente do ODCR, o CB pode ser agendado para começar no futuro e tem um limite de tempo. Para ter mais informações sobre como inicializar com ODCR, consulte Launch instances with On-Demand Capacity Reservations (ODCR).
Usando CB com AWS ParallelCluster
Para configurar seus clusters novos ou existentes para usar um CB, primeiro você precisa ter um CB válido em sua AWS conta. Você pode usar o SDK Console de gerenciamento da AWS AWS Command Line Interface,, ou para encontrar e comprar um CB disponível seguindo a documentação oficial. Depois de ter um CB válido, você pode definir o CB Amazon Resource Name (ARN) e os parâmetros relacionados em seu arquivo de configuração. AWS ParallelCluster Para ter mais informações, consulte Encontrar e comprar blocos de capacidade (CB)
CB na configuração do cluster
Para usar um CB para uma fila específica, você deve usar o CapacityReservationId parâmetro. Configure-o para um ID CB existente. Você pode obter o ARN do CB do AWS CLI,, ou Console de gerenciamento da AWS do SDK que você usou para criar o CB.
Você deve definir CapacityType = CAPACITY_BLOCK a fila em que deseja usar o CB. Defina-o como o InstanceType do recurso computacional (o mesmo que o tipo de instância Amazon Elastic Compute Cloud do CB).
Quando você especifica o CapacityReservationId no nível do recurso computacional, o InstanceType é opcional porque ele será automaticamente recuperado da reserva.
Quando você usaCapacityType = CAPACITY_BLOCK, MaxCount deve ser igual MinCount e maior que 0, porque todas as instâncias que fazem parte da reserva CB são gerenciadas como nós estáticos.
No momento da criação do cluster, o nó principal espera que todos os nós estáticos estejam prontos antes de sinalizar o sucesso da criação do cluster. No entanto, quando você usaCapacityType = CAPACITY_BLOCK, os nós que fazem parte dos recursos computacionais associados não serão considerados para essa verificação. O cluster será criado mesmo que todos os configurados não estejam ativos.
O trecho do arquivo de configuração a seguir mostra os parâmetros necessários para habilitar no arquivo de AWS ParallelCluster configuração.
SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)
Como AWS ParallelCluster usa os blocos de capacidade (CB)
AWS ParallelCluster gerencia os nós estáticos associados de uma forma peculiar. AWS ParallelCluster cria um cluster mesmo que o CB ainda não esteja ativo, e as instâncias são iniciadas automaticamente quando o CB está ativo.
Os Slurm nós que correspondem aos recursos computacionais, estão associados e ainda não estão ativos são mantidos em manutenção até atingirem o horário de início do CB. Slurmos nós permanecem em um reservation/maintenance estado e são associados ao usuário administrador do slurm. Isso significa que eles podem aceitar trabalhos, mas os trabalhos permanecem pending até que a reserva seja removida.
AWS ParallelCluster atualiza automaticamente as Slurm reservas e coloca os nós CB relacionados em estado de manutenção (correspondente ao estado CB). Quando o CB está ativo, a Slurm reserva é removida e os nós são iniciados e ficam disponíveis para trabalhos pendentes ou para novos envios de trabalhos.
Quando a hora de término do CB for atingida, os nós serão movidos de volta para um reservation/maintenance estado. Cabe aos resubmit/requeue usuários trabalhar em uma nova fila/recurso computacional quando o CB não está mais ativo e as instâncias são encerradas.