Häufig gestellte Fragen zur Verwendung von Capacity Blocks mit AWS PCS

Ich habe gerade für einen Kapazitätsblock bezahlt und sofort versucht, ihn mit AWS PCS zu verwenden, aber die Erstellung der Compute-Knotengruppe ist fehlgeschlagen. Was ist passiert?

Ihr Kapazitätsblock befindet sich möglicherweise nicht im active Status scheduled Oder. Versuchen Sie es erneut, wenn der Kapazitätsblock den Wert scheduled oder hatactive.

Ich verwende einen Capacity Block in AWS PCS und habe eine Erweiterung gekauft, bevor sie abgelaufen ist. Wie verwende ich ihn weiterhin in AWS PCS?

Sie müssen nichts tun, um den Capacity Block in AWS PCS weiterhin zu verwenden. Das Enddatum Ihres Capacity Blocks wird aktualisiert, sobald Ihre Verlängerungszahlung erfolgreich war. Solange Ihr Kapazitätsblock nicht abläuft, ist die Rechenknotengruppe weiterhin in Betrieb. Wenn Ihre Verlängerungszahlung fehlschlägt, bleibt Ihr Kapazitätsblock bestehen active und die Rechenknotengruppe funktioniert, bis der Kapazitätsblock an seinem ursprünglichen Enddatum abläuft.

Was passiert mit meinen in der Warteschlange stehenden und laufenden Jobs, wenn mein Kapazitätsblock abläuft?

Jobs in der Warteschlange, die nicht gestartet wurden, bevor der Kapazitätsblock abgelaufen ist, bleiben solange ausstehend, bis Sie eine weitere Rechenknotengruppe an die Warteschlange anhängen oder die Rechenknotengruppe mit einem neuen Kapazitätsblock aktualisieren. Sie können weiterhin Jobs an die Warteschlange senden. Ihre Slurm-Einstellungen wirken sich auf aktive Jobs aus. Standardmäßig werden aktive Jobs automatisch erneut in die Warteschlange gestellt, können aber Fehler aufweisen oder fehlschlagen.

Mein Kapazitätsblock ist abgelaufen. Sollte ich etwas tun?

Du musst nichts tun. Sie können den Status Ihrer EC2 Kapazitätsreservierungen auf der EC2 Amazon-Konsole überprüfen. Wenn ein Kapazitätsblock abläuft, ist die diesem Kapazitätsblock zugeordnete Rechenknotengruppe weiterhin vorhanden und verarbeitet dieselben Warteschlangen. Die Rechenknotengruppe hat keine Instanzen zum Ausführen von Jobs. Sie können die Compute-Knotengruppe löschen oder sie von den Warteschlangen trennen, um zu verhindern, dass Benutzer Jobs einreichen, die nicht ausgeführt werden können.

Ich möchte einen neuen Kapazitätsblock mit meiner AWS PCS-Compute-Knotengruppe verwenden. Was soll ich tun?

Wir empfehlen Ihnen, eine neue Rechenknotengruppe zu erstellen, um den neuen Kapazitätsblock zu verwenden. Weitere Informationen finden Sie unter Konfigurieren Sie eine AWS PCS-Rechenknotengruppe für die Verwendung eines Kapazitätsblocks.

Wie kann ich einen Kapazitätsblock für Cluster und Dienste gemeinsam nutzen?

Sie können einen Kapazitätsblock auf mehrere Cluster und Dienste aufteilen. Um beispielsweise einen Kapazitätsblock mit 64 p5.48xlarge Instanzen mit 20 Knoten auf PCS-Cluster-1, 16 Knoten auf PCS-Cluster-2 und den verbleibenden Knoten für andere Dienste aufzuteilen, setzen Sie beide und auf 20 für PCS-Cluster-1 minInstanceCount und maxInstanceCount 16 für PCS-Cluster-2.

Kann ich mehr als einen Kapazitätsblock oder kombinierte Kapazität mit einer Rechenknotengruppe verwenden?

Nein. Einer einzelnen Rechenknotengruppe kann nur 1 Kapazitätsblock zugeordnet werden. AWS PCS unterstützt keine Kapazitätsreservierungsgruppen, die mehrere Kapazitätsblöcke kombinieren.

Woher weiß ich, wann meine Kapazitätsblöcke beginnen oder ablaufen?

Unabhängig von AWS PCS EC2 sendet Amazon ein Capacity Block Reservation Delivered Ereignis, EventBridge wenn eine Kapazitätsblock-Reservierung beginnt, und ein Capacity Block Reservation Expiration Warning Ereignis 40 Minuten vor Ablauf der Kapazitätsblock-Reservierung. Weitere Informationen finden Sie unter Verwendung von Kapazitätsblöcken überwachen EventBridge im Amazon Elastic Compute Cloud-Benutzerhandbuch.

Wie verfolgt Slurm den Status meines Kapazitätsblocks?

Du kannst laufensinfo, um zu verstehen, wie AWS PCS den Capacity Block verwendet. In der folgenden Beispielausgabe ist eine Warteschlange einer Rechenknotengruppe zugeordnet, die 4 Instanzen aus einem active Kapazitätsblock ausführt. Die Knoten befinden sich im idle Slurm-Status (zur Verwendung verfügbar und noch keinen Jobs zugewiesen).


$ sinfo  
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST  
fanout up infinite 4 idle node-fanout-[1-4]

Wenn sich die Knoten stattdessen im maint Status befinden, können Sie den Befehl ausführen, scontrol show res um Details zur Slurm-Reservierung zu sehen, die diesen Status kontrolliert. In der folgenden Beispielausgabe hat der scheduled Capacity-Block ein future Startdatum.


$ scontrol show res                                                                                                  
ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00    
   Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES          
   TRES=cpu=16                                                                                                       
   Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null)                          
   MaxStartDelay=(null)                                                                                              
   Comment=node-fanout Scheduled

Wie kann ich feststellen, ob die Fehler, die ich beim Starten von Capacity erhalte, darauf zurückzuführen sind, dass mein Capacity-Block gemeinsam genutzt wird?

Unter Kapazitätsreservierungen in der EC2 Amazon-Konsole können Sie herausfinden, wie viele Instances aus dem Capacity Block aktiv bereitgestellt werden. Überprüfen Sie die Tags der einzelnen Instances, um herauszufinden, welcher Service oder Cluster sie verwendet. Beispielsweise verfügen alle Instanzen für AWS PCS über AWS PCS-Tags, aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk die angeben, zu welchen Clustern und Rechenknotengruppen die Instanz gehört. Sie können dann überprüfen, ob der Kapazitätsblock die maximale Kapazität erreicht hat.

Sie verwendenscontrol show nodes, um zu überprüfen, ob ein Capacity Block-Knoten in einem AWS PCS-Cluster Folgendes auslöstReservationCapacityExceeded:


[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2  
NodeName=test-8-gamma-cb-2 CoresPerSocket=1  
   CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00  
   AvailableFeatures=test-8-gamma-cb,gpu  
   ActiveFeatures=test-8-gamma-cb,gpu  
   Gres=gpu:H100:1  
   NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2  
   RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1  
   State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A  
   Partitions=my-q  
   BootTime=None SlurmdStartTime=None  
   LastBusyTime=Unknown ResumeAfterTime=None  
   CfgTRES=cpu=8,mem=249036M,billing=8  
   AllocTRES=  
   CurrentWatts=0 AveWatts=0  
   Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]

Wie kann ich erzwingen, dass ein Job auf Capacity Block-gestützten Instances ausgeführt wird, wenn mehrere Rechenknotengruppen an dieselbe Warteschlange angehängt sind?

Sie können die Funktionen und Einschränkungen von Slurm verwenden, um einen Job an eine bestimmte Gruppe von Knoten zu binden. Wir empfehlen, Slurm-Gewichtungen nicht für jede Rechenknotengruppe festzulegen, da dies nur mit Knoten funktioniert, die sich nicht im maint Status befinden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konfigurieren Sie eine Rechenknotengruppe für die Verwendung eines Kapazitätsblocks

Nützliche Parameter für Startvorlagen