Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Questions fréquemment posées sur l'utilisation des blocs de capacité avec les AWS PCS
- Je viens de payer un bloc de capacité et j'ai immédiatement essayé de l'utiliser avec un AWS PCS, mais la création d'un groupe de nœuds de calcul a échoué. Que s’est-il passé ?
-
Votre bloc de capacité n'est peut-être pas à
activel'état «scheduledor ». Réessayez une fois que le bloc de capacité estscheduledouactive. - J'utilise un bloc de capacité dans AWS PCS et j'ai acheté une extension avant son expiration. Comment puis-je continuer à l'utiliser dans AWS PCS ?
-
Vous n'avez rien à faire pour continuer à utiliser le bloc de capacité dans AWS PCS. La date de fin de votre bloc de capacité est mise à jour une fois que le paiement de votre extension a été effectué avec succès. Tant que votre bloc de capacité n'expire pas, le groupe de nœuds de calcul continue de fonctionner. Si le paiement de votre extension échoue, votre bloc de capacité est conservé
activeet le groupe de nœuds de calcul fonctionne jusqu'à ce que le bloc de capacité expire à sa date de fin initiale. - Qu'advient-il de mes tâches en attente et en cours d'exécution si mon bloc de capacité expire ?
-
Les tâches en file d'attente qui n'ont pas démarré avant l'expiration du bloc de capacité restent en attente jusqu'à ce que vous attachiez un autre groupe de nœuds de calcul à la file d'attente ou que vous mettiez à jour le groupe de nœuds de calcul avec un nouveau bloc de capacité. Vous pouvez toujours ajouter des tâches à la file d'attente. Vos paramètres Slurm affectent les tâches actives. Par défaut, les tâches actives sont automatiquement mises en file d'attente, mais elles peuvent comporter des erreurs ou échouer.
- Mon bloc de capacité a expiré. Dois-je faire quelque chose ?
-
Tu n'as rien à faire. Vous pouvez consulter la EC2 console Amazon pour connaître l'état de vos réservations de EC2 capacité. Lorsqu'un bloc de capacité expire, le groupe de nœuds de calcul associé à ce bloc de capacité continue d'exister et de gérer les mêmes files d'attente. Le groupe de nœuds de calcul ne possède aucune instance pour exécuter des tâches. Vous pouvez supprimer le groupe de nœuds de calcul ou le dissocier des files d'attente pour empêcher les utilisateurs de soumettre des tâches qui ne seront pas exécutées.
- Je souhaite utiliser un nouveau bloc de capacité avec mon groupe de nœuds de calcul AWS PCS. Que dois-je faire ?
-
Nous vous recommandons de créer un nouveau groupe de nœuds de calcul pour utiliser le nouveau bloc de capacité. Pour de plus amples informations, veuillez consulter Configuration d'un groupe de nœuds de calcul AWS PCS pour utiliser un bloc de capacité.
- Comment puis-je partager un bloc de capacité entre les clusters et les services ?
-
Vous pouvez répartir un bloc de capacité sur plusieurs clusters et services. Par exemple, pour diviser un bloc de capacité avec 64
p5.48xlargeinstances avec 20 nœuds sur PCS-Cluster-1, 16 nœuds sur PCS-Cluster-2 et les nœuds restants pour d'autres services, définissez les deux et sur 20 pour PCS-Cluster-1minInstanceCountet 16maxInstanceCountpour PCS-Cluster-2. - Puis-je utiliser plus d'un bloc de capacité ou une capacité combinée avec un groupe de nœuds de calcul ?
-
Non. Un seul bloc de capacité peut être associé à un seul groupe de nœuds de calcul. AWS PCS ne prend pas en charge les groupes de réservation de capacité qui combinent plusieurs blocs de capacité.
- Comment savoir quand mes blocs de capacité commencent ou expirent ?
-
Indépendamment de AWS PCS, Amazon EC2 envoie un
Capacity Block Reservation Deliveredévénement EventBridge lorsqu'une réservation de bloc de capacité commence et unCapacity Block Reservation Expiration Warningévénement 40 minutes avant l'expiration de la réservation de bloc de capacité. Pour plus d'informations, consultez la section Monitor Capacity Blocks using EventBridge dans le guide de l'utilisateur d'Amazon Elastic Compute Cloud. - Comment est-ce que Slurm suit l'état de mon bloc de capacité ?
-
Vous pouvez courir
sinfopour comprendre comment AWS PCS utilise le bloc de capacité. Dans l'exemple de sortie suivant, une file d'attente est associée à un groupe de nœuds de calcul qui exécute 4 instances à partir d'un bloc deactivecapacité. Les nœuds sont dans l'étatidleSlurm (ils peuvent être utilisés et ne sont pas encore affectés à des tâches).$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]Si les nœuds sont plutôt en
maintétat, vous pouvez courirscontrol show respour voir les détails de la réservation Slurm qui contrôle cet état. Dans l'exemple de sortie suivant, le bloc de capacitéscheduledindique une date de début future.$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - Comment puis-je savoir si les erreurs que je reçois lors du lancement de Capacity sont dues au fait que mon bloc de capacité est partagé ?
-
Consultez les réservations de capacité dans la EC2 console Amazon pour savoir combien d'instances du bloc de capacité sont activement provisionnées. Vérifiez les balises de chaque instance pour savoir quel service ou cluster l'utilise. Par exemple, toutes les instances pour AWS AWS PCS possèdent des balises PCS
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqkqui indiquent à quels clusters et groupes de nœuds de calcul l'instance appartient. Vous pouvez ensuite vérifier si le bloc de capacité est à sa capacité maximale.Vous utilisez
scontrol show nodespour vérifier si un nœud Capacity Block d'un cluster AWS PCS déclencheReservationCapacityExceeded:[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - Lorsque plusieurs groupes de nœuds de calcul sont attachés à la même file d'attente, comment puis-je forcer l'exécution d'une tâche sur des instances basées sur Capacity Block ?
-
Vous pouvez utiliser les fonctionnalités et les contraintes de Slurm pour verrouiller une tâche sur un certain ensemble de nœuds. Nous vous recommandons de ne pas définir de poids Slurm pour chaque groupe de nœuds de calcul, car cela ne fonctionne qu'avec les nœuds qui ne sont pas dans cet état.
maint