As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Perguntas frequentes sobre o uso de blocos de capacidade com AWS PCS
- Acabei de pagar por um bloco de capacidade e imediatamente tentei usá-lo com o AWS PCS, mas a criação do grupo de nós de computação falhou. O que aconteceu?
-
Seu bloco de capacidade pode não estar em um
activeestadoscheduledou. Tente novamente depois que o bloco de capacidade forscheduledouactive. - Estou usando um bloco de capacidade no AWS PCS e comprei uma extensão antes que ela expirasse. Como continuo a usá-lo no AWS PCS?
-
Você não precisa fazer nada para continuar usando o Bloco de Capacidade no AWS PCS. A data de término do seu Bloco de Capacidade é atualizada após o pagamento da extensão ser bem-sucedido. Enquanto seu bloco de capacidade não expirar, o grupo de nós de computação continuará operando. Se o pagamento da extensão falhar, seu Bloco de Capacidade permanecerá
activee o grupo de nós de computação operará até que o Bloco de Capacidade expire na data de término original. - O que acontece com meus trabalhos em fila e em execução se meu bloco de capacidade expirar?
-
Os trabalhos em fila que não foram iniciados antes da expiração do Bloco de Capacidade permanecem pendentes até que você anexe outro grupo de nós de computação à fila ou atualize o grupo de nós de computação com um novo Bloco de Capacidade. Você ainda pode enviar trabalhos para a fila. Suas configurações do Slurm afetam os trabalhos ativos. Por padrão, os trabalhos ativos são automaticamente enfileirados novamente, mas podem apresentar erros ou falhar.
- Meu bloco de capacidade expirou. Devo fazer alguma coisa?
-
Você não precisa fazer nada. Você pode verificar o status de suas reservas de EC2 capacidade no EC2 console da Amazon. Quando um bloco de capacidade expira, o grupo de nós de computação associado a esse bloco de capacidade continua existindo e manipulando as mesmas filas. O grupo de nós de computação não tem nenhuma instância para executar trabalhos. Você pode excluir o grupo de nós de computação ou desassociá-lo das filas para impedir que os usuários enviem trabalhos que não serão executados.
- Quero usar um novo bloco de capacidade com meu grupo de nós de computação AWS PCS. O que devo fazer?
-
Recomendamos que você crie um novo grupo de nós de computação para usar o novo Bloco de Capacidade. Para obter mais informações, consulte Configurar um grupo de nós de computação AWS PCS para usar um bloco de capacidade.
- Como posso compartilhar 1 bloco de capacidade entre clusters e serviços?
-
Você pode dividir um bloco de capacidade em vários clusters e serviços. Por exemplo, para dividir um bloco de capacidade com 64
p5.48xlargeinstâncias com 20 nós no PCS-Cluster-1, 16 nós no PCS-Cluster-2 e os nós restantes para outros serviços, defina os dois como 20 no PCS-Cluster-1minInstanceCountemaxInstanceCount16 no PCS-Cluster-2. - Posso usar mais de 1 bloco de capacidade ou capacidade combinada com 1 grupo de nós de computação?
-
Não. Somente 1 bloco de capacidade pode ser associado a um único grupo de nós de computação. AWS O PCS não oferece suporte a grupos de reserva de capacidade que combinam vários blocos de capacidade.
- Como sei quando meus blocos de capacidade começam ou expiram?
-
Independentemente do AWS PCS, a Amazon EC2 envia um
Capacity Block Reservation Deliveredevento EventBridge quando uma reserva do Bloco de Capacidade começa e umCapacity Block Reservation Expiration Warningevento 40 minutos antes da expiração da reserva do Bloco de Capacidade. Para obter mais informações, consulte Monitorar blocos de capacidade usando EventBridge o Guia do usuário do Amazon Elastic Compute Cloud. - Como o Slurm rastreia o estado do meu bloco de capacidade?
-
Você pode executar
sinfopara entender como o AWS PCS usa o Bloco de Capacidade. No exemplo de saída a seguir, uma fila está associada a um grupo de nós de computação que executa 4 instâncias a partir de um bloco deactivecapacidade. Os nós estão no estadoidleSlurm (disponíveis para uso e ainda não estão alocados para nenhuma tarefa).$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]Se, em vez disso, os nós estiverem no
maintestado, você poderá executarscontrol show respara ver detalhes sobre a reserva do Slurm que controla esse estado. No exemplo de saída a seguir, o Bloco de Capacidade estáscheduledcom uma data de início futura.$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - Como posso saber se os erros que estou recebendo ao iniciar a capacidade são porque meu bloco de capacidade está compartilhado?
-
Verifique as reservas de capacidade no EC2 console da Amazon para descobrir quantas instâncias do bloco de capacidade estão ativamente provisionadas. Verifique as tags de cada instância para descobrir qual serviço ou cluster a usa. Por exemplo, todas as instâncias do AWS PCS têm tags AWS PCS, como as
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqkque indicam a quais clusters e grupos de nós de computação a instância pertence. Em seguida, você pode verificar se o bloco de capacidade está na capacidade máxima.Você usa
scontrol show nodespara verificar se um nó do Capacity Block em um cluster AWS PCS está acionandoReservationCapacityExceeded:[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - Quando vários grupos de nós de computação estão conectados à mesma fila, como posso forçar a execução de um trabalho em instâncias com suporte do Capacity Block?
-
Você pode usar os recursos e restrições do Slurm para bloquear uma tarefa em um determinado conjunto de nós. Recomendamos que você não defina pesos do Slurm para cada grupo de nós de computação, pois isso só funciona com nós que não estão no estado.
maint