As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando Amazon EC2 Capacity Blocks para ML com AWS PCS
O Amazon EC2 Capacity Blocks for ML é uma opção de EC2 compra da Amazon que permite que você pague antecipadamente para reservar instâncias de computação acelerada baseadas em GPU dentro de um intervalo específico de data e hora para suportar cargas de trabalho de curta duração. As instâncias que são executadas dentro de um bloco de capacidade são automaticamente colocadas próximas umas das outras dentro da Amazon EC2 UltraClusters, para redes de baixa latência, em escala de petabits e sem bloqueio. Para obter mais informações, consulte Capacity Blocks for ML no Guia do usuário do Amazon Elastic Compute Cloud.
Você pode usar um modelo de execução para que o AWS PCS use um bloco de capacidade ao iniciar instâncias para um grupo de nós de computação.
nota
AWS O PCS suporta somente blocos de capacidade com o Slurm versão 24.05 ou posterior.
Limitações
-
AWS O PCS suporta somente blocos de capacidade com famílias de instâncias P5en, P5e, P5 e P4d.
-
Você só pode associar um grupo de nós de computação a 1 bloco de capacidade por vez.
-
Você não pode associar um grupo de nós de computação a um grupo de reserva de capacidade que combine vários blocos de capacidade.
-
Os blocos de capacidade devem estar em um
activeestadoscheduledou para serem usados com o AWS PCS. Você não pode usar blocos de capacidade em outros estados, comopayment-failed. Para obter mais informações, consulte Exibir blocos de capacidade no Guia do usuário do Amazon Elastic Compute Cloud.
Expiração do bloco de capacidade
Os blocos de capacidade são limitados a um intervalo específico de data e hora. Quando um bloco de capacidade expira:
-
O grupo de nós de computação associado a esse bloco de capacidade continua existindo e permanece associado às mesmas filas.
-
Todas as instâncias no grupo de nós de computação são encerradas e os trabalhos ativos podem falhar, com base nas configurações do Slurm.
-
AWS O PCS não pode iniciar novas instâncias no grupo de nós de computação.
-
Todos os trabalhos em fila ou recém-enviados permanecem em estado pendente até que outro grupo de nós de computação seja anexado à fila ou você atualize o grupo de nós de computação para usar um novo modelo de execução que especifique um novo bloco de capacidade.