Preguntas frecuentes sobre el uso de bloques de capacidad con AWS PCS

Acabo de pagar un bloque de capacidad e inmediatamente intenté usarlo con AWS PCS, pero no se pudo crear el grupo de nodos de cómputo. ¿Qué ha pasado?

Es posible que su bloque de capacidad no esté en un active estado scheduled o. Vuelva a intentarlo cuando el bloque de capacidad esté scheduled oactive.

Estoy utilizando un bloque de capacidad en AWS PCS y he comprado una extensión antes de que caducara. ¿Cómo puedo seguir utilizándolo en AWS PCS?

No tiene que hacer nada para seguir utilizando el bloque de capacidad en AWS PCS. La fecha de finalización de tu bloque de capacidad se actualiza cuando se realiza correctamente el pago de la extensión. Mientras el bloque de capacidad no caduque, el grupo de nodos de cómputo seguirá funcionando. Si no se realiza el pago de la extensión, el bloque de capacidad permanece active y el grupo de nodos de cómputo funciona hasta que el bloque de capacidad venza en su fecha de finalización original.

¿Qué ocurre con mis trabajos en cola y en ejecución si mi bloque de capacidad caduca?

Los trabajos en cola que no se iniciaron antes de que expirara el bloque de capacidad permanecen pendientes hasta que asocie otro grupo de nodos de cómputo a la cola o actualice el grupo de nodos de cómputo con un nuevo bloque de capacidad. Aún puede enviar trabajos a la cola. La configuración de Slurm afecta a los trabajos activos. De forma predeterminada, los trabajos activos se vuelven a poner en cola automáticamente, pero pueden tener errores o fallar.

Mi bloque de capacidad ha caducado. ¿Debo hacer algo?

No tienes que hacer nada. Puedes consultar el estado de tus reservas de EC2 capacidad en la EC2 consola de Amazon. Cuando un bloque de capacidad caduca, el grupo de nodos de cómputo asociado a ese bloque de capacidad sigue existiendo y gestionando las mismas colas. El grupo de nodos de cómputo no tiene instancias para ejecutar trabajos. Puedes eliminar el grupo de nodos de cómputo o desasociarlo de las colas para evitar que los usuarios envíen trabajos que no se ejecutarán.

Quiero usar un nuevo bloque de capacidad con mi grupo de nodos de cómputo de AWS PCS. ¿Qué tengo que hacer?

Le recomendamos que cree un nuevo grupo de nodos de cómputo para usar el nuevo bloque de capacidad. Para obtener más información, consulte Configurar un grupo de nodos de cómputo de AWS PCS para usar un bloque de capacidad.

¿Cómo puedo compartir 1 bloque de capacidad entre clústeres y servicios?

Puede dividir un bloque de capacidad en varios clústeres y servicios. Por ejemplo, para dividir un bloque de capacidad con 64 p5.48xlarge instancias con 20 nodos en el PCS-Cluster-1, 16 nodos en el PCS-Cluster-2 y los nodos restantes para otros servicios, defina ambos minInstanceCount nodos en 20 para el PCS-Cluster-1 y 16 para el PCS-Cluster-2. maxInstanceCount

¿Puedo usar más de un bloque de capacidad o una capacidad combinada con un grupo de nodos de cómputo?

No. Solo se puede asociar un bloque de capacidad a un único grupo de nodos de procesamiento. AWS PCS no admite grupos de reserva de capacidad que combinen varios bloques de capacidad.

¿Cómo sé cuándo comienzan o caducan mis bloques de capacidad?

Independientemente de AWS PCS, Amazon EC2 envía un Capacity Block Reservation Delivered evento EventBridge cuando se inicia una reserva de Capacity Block y un Capacity Block Reservation Expiration Warning evento 40 minutos antes de que caduque la reserva de Capacity Block. Para obtener más información, consulte Supervisar los bloques de capacidad EventBridge en la Guía del usuario de Amazon Elastic Compute Cloud.

¿Cómo rastrea Slurm el estado de mi bloque de capacidad?

Puede correr sinfo para entender cómo AWS PCS utiliza el bloque de capacidad. En el siguiente resultado de ejemplo, se asocia una cola a un grupo de nodos de cómputo que ejecuta 4 instancias desde un bloque de active capacidad. Los nodos están en el estado idle Slurm (están disponibles para su uso y aún no están asignados a ningún trabajo).


$ sinfo  
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST  
fanout up infinite 4 idle node-fanout-[1-4]

Si, por el contrario, los nodos están en maint estado, puedes ir scontrol show res a ver los detalles sobre la reserva de Slurm que controla este estado. En el siguiente ejemplo de salida, el bloque de capacidad tiene scheduled una fecha de inicio futura.


$ scontrol show res                                                                                                  
ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00    
   Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES          
   TRES=cpu=16                                                                                                       
   Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null)                          
   MaxStartDelay=(null)                                                                                              
   Comment=node-fanout Scheduled

¿Cómo puedo saber si los errores que recibo al lanzar la capacidad se deben a que mi bloque de capacidad está compartido?

Comprueba las reservas de capacidad en la EC2 consola de Amazon para saber cuántas instancias del bloque de capacidad están aprovisionadas activamente. Comprueba las etiquetas de cada instancia para saber qué servicio o clúster la utiliza. Por ejemplo, todas las instancias de AWS PCS tienen etiquetas de AWS PCS, aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk que indican a qué clústeres y grupos de nodos de cómputo pertenece la instancia. A continuación, puede comprobar si el bloque de capacidad está al máximo de su capacidad.

scontrol show nodesPara comprobar si un nodo de bloque de capacidad de un clúster de AWS PCS se está activandoReservationCapacityExceeded:


[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2  
NodeName=test-8-gamma-cb-2 CoresPerSocket=1  
   CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00  
   AvailableFeatures=test-8-gamma-cb,gpu  
   ActiveFeatures=test-8-gamma-cb,gpu  
   Gres=gpu:H100:1  
   NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2  
   RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1  
   State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A  
   Partitions=my-q  
   BootTime=None SlurmdStartTime=None  
   LastBusyTime=Unknown ResumeAfterTime=None  
   CfgTRES=cpu=8,mem=249036M,billing=8  
   AllocTRES=  
   CurrentWatts=0 AveWatts=0  
   Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]

Cuando hay varios grupos de nodos de cómputo conectados a la misma cola, ¿cómo puedo forzar la ejecución de un trabajo en instancias respaldadas por Capacity Block?

Puedes usar las funciones y restricciones de Slurm para bloquear un trabajo en un determinado conjunto de nodos. Le recomendamos que no establezca ponderaciones de Slurm para cada grupo de nodos de cómputo, ya que eso solo funciona con los nodos que no están en ese estado. maint

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configure un grupo de nodos de cómputo para usar un bloque de capacidad

Parámetros útiles de la plantilla de lanzamiento