Perguntas frequentes sobre o uso de blocos de capacidade com AWS PCS

Acabei de pagar por um bloco de capacidade e imediatamente tentei usá-lo com o AWS PCS, mas a criação do grupo de nós de computação falhou. O que aconteceu?

Seu bloco de capacidade pode não estar em um active estado scheduled ou. Tente novamente depois que o bloco de capacidade for scheduled ouactive.

Estou usando um bloco de capacidade no AWS PCS e comprei uma extensão antes que ela expirasse. Como continuo a usá-lo no AWS PCS?

Você não precisa fazer nada para continuar usando o Bloco de Capacidade no AWS PCS. A data de término do seu Bloco de Capacidade é atualizada após o pagamento da extensão ser bem-sucedido. Enquanto seu bloco de capacidade não expirar, o grupo de nós de computação continuará operando. Se o pagamento da extensão falhar, seu Bloco de Capacidade permanecerá active e o grupo de nós de computação operará até que o Bloco de Capacidade expire na data de término original.

O que acontece com meus trabalhos em fila e em execução se meu bloco de capacidade expirar?

Os trabalhos em fila que não foram iniciados antes da expiração do Bloco de Capacidade permanecem pendentes até que você anexe outro grupo de nós de computação à fila ou atualize o grupo de nós de computação com um novo Bloco de Capacidade. Você ainda pode enviar trabalhos para a fila. Suas configurações do Slurm afetam os trabalhos ativos. Por padrão, os trabalhos ativos são automaticamente enfileirados novamente, mas podem apresentar erros ou falhar.

Meu bloco de capacidade expirou. Devo fazer alguma coisa?

Você não precisa fazer nada. Você pode verificar o status de suas reservas de EC2 capacidade no EC2 console da Amazon. Quando um bloco de capacidade expira, o grupo de nós de computação associado a esse bloco de capacidade continua existindo e manipulando as mesmas filas. O grupo de nós de computação não tem nenhuma instância para executar trabalhos. Você pode excluir o grupo de nós de computação ou desassociá-lo das filas para impedir que os usuários enviem trabalhos que não serão executados.

Quero usar um novo bloco de capacidade com meu grupo de nós de computação AWS PCS. O que devo fazer?

Recomendamos que você crie um novo grupo de nós de computação para usar o novo Bloco de Capacidade. Para obter mais informações, consulte Configurar um grupo de nós de computação AWS PCS para usar um bloco de capacidade.

Como posso compartilhar 1 bloco de capacidade entre clusters e serviços?

Você pode dividir um bloco de capacidade em vários clusters e serviços. Por exemplo, para dividir um bloco de capacidade com 64 p5.48xlarge instâncias com 20 nós no PCS-Cluster-1, 16 nós no PCS-Cluster-2 e os nós restantes para outros serviços, defina os dois como 20 no PCS-Cluster-1 minInstanceCount e maxInstanceCount 16 no PCS-Cluster-2.

Posso usar mais de 1 bloco de capacidade ou capacidade combinada com 1 grupo de nós de computação?

Não. Somente 1 bloco de capacidade pode ser associado a um único grupo de nós de computação. AWS O PCS não oferece suporte a grupos de reserva de capacidade que combinam vários blocos de capacidade.

Como sei quando meus blocos de capacidade começam ou expiram?

Independentemente do AWS PCS, a Amazon EC2 envia um Capacity Block Reservation Delivered evento EventBridge quando uma reserva do Bloco de Capacidade começa e um Capacity Block Reservation Expiration Warning evento 40 minutos antes da expiração da reserva do Bloco de Capacidade. Para obter mais informações, consulte Monitorar blocos de capacidade usando EventBridge o Guia do usuário do Amazon Elastic Compute Cloud.

Como o Slurm rastreia o estado do meu bloco de capacidade?

Você pode executar sinfo para entender como o AWS PCS usa o Bloco de Capacidade. No exemplo de saída a seguir, uma fila está associada a um grupo de nós de computação que executa 4 instâncias a partir de um bloco de active capacidade. Os nós estão no estado idle Slurm (disponíveis para uso e ainda não estão alocados para nenhuma tarefa).


$ sinfo  
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST  
fanout up infinite 4 idle node-fanout-[1-4]

Se, em vez disso, os nós estiverem no maint estado, você poderá executar scontrol show res para ver detalhes sobre a reserva do Slurm que controla esse estado. No exemplo de saída a seguir, o Bloco de Capacidade está scheduled com uma data de início futura.


$ scontrol show res                                                                                                  
ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00    
   Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES          
   TRES=cpu=16                                                                                                       
   Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null)                          
   MaxStartDelay=(null)                                                                                              
   Comment=node-fanout Scheduled

Como posso saber se os erros que estou recebendo ao iniciar a capacidade são porque meu bloco de capacidade está compartilhado?

Verifique as reservas de capacidade no EC2 console da Amazon para descobrir quantas instâncias do bloco de capacidade estão ativamente provisionadas. Verifique as tags de cada instância para descobrir qual serviço ou cluster a usa. Por exemplo, todas as instâncias do AWS PCS têm tags AWS PCS, como as aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk que indicam a quais clusters e grupos de nós de computação a instância pertence. Em seguida, você pode verificar se o bloco de capacidade está na capacidade máxima.

Você usa scontrol show nodes para verificar se um nó do Capacity Block em um cluster AWS PCS está acionandoReservationCapacityExceeded:


[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2  
NodeName=test-8-gamma-cb-2 CoresPerSocket=1  
   CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00  
   AvailableFeatures=test-8-gamma-cb,gpu  
   ActiveFeatures=test-8-gamma-cb,gpu  
   Gres=gpu:H100:1  
   NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2  
   RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1  
   State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A  
   Partitions=my-q  
   BootTime=None SlurmdStartTime=None  
   LastBusyTime=Unknown ResumeAfterTime=None  
   CfgTRES=cpu=8,mem=249036M,billing=8  
   AllocTRES=  
   CurrentWatts=0 AveWatts=0  
   Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]

Quando vários grupos de nós de computação estão conectados à mesma fila, como posso forçar a execução de um trabalho em instâncias com suporte do Capacity Block?

Você pode usar os recursos e restrições do Slurm para bloquear uma tarefa em um determinado conjunto de nós. Recomendamos que você não defina pesos do Slurm para cada grupo de nós de computação, pois isso só funciona com nós que não estão no estado. maint

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar um grupo de nós de computação para usar um bloco de capacidade

Parâmetros úteis do modelo de lançamento