Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Häufig gestellte Fragen zur Verwendung von Capacity Blocks mit AWS PCS
- Ich habe gerade für einen Kapazitätsblock bezahlt und sofort versucht, ihn mit AWS PCS zu verwenden, aber die Erstellung der Compute-Knotengruppe ist fehlgeschlagen. Was ist passiert?
-
Ihr Kapazitätsblock befindet sich möglicherweise nicht im
activeStatusscheduledOder. Versuchen Sie es erneut, wenn der Kapazitätsblock den Wertscheduledoder hatactive. - Ich verwende einen Capacity Block in AWS PCS und habe eine Erweiterung gekauft, bevor sie abgelaufen ist. Wie verwende ich ihn weiterhin in AWS PCS?
-
Sie müssen nichts tun, um den Capacity Block in AWS PCS weiterhin zu verwenden. Das Enddatum Ihres Capacity Blocks wird aktualisiert, sobald Ihre Verlängerungszahlung erfolgreich war. Solange Ihr Kapazitätsblock nicht abläuft, ist die Rechenknotengruppe weiterhin in Betrieb. Wenn Ihre Verlängerungszahlung fehlschlägt, bleibt Ihr Kapazitätsblock bestehen
activeund die Rechenknotengruppe funktioniert, bis der Kapazitätsblock an seinem ursprünglichen Enddatum abläuft. - Was passiert mit meinen in der Warteschlange stehenden und laufenden Jobs, wenn mein Kapazitätsblock abläuft?
-
Jobs in der Warteschlange, die nicht gestartet wurden, bevor der Kapazitätsblock abgelaufen ist, bleiben solange ausstehend, bis Sie eine weitere Rechenknotengruppe an die Warteschlange anhängen oder die Rechenknotengruppe mit einem neuen Kapazitätsblock aktualisieren. Sie können weiterhin Jobs an die Warteschlange senden. Ihre Slurm-Einstellungen wirken sich auf aktive Jobs aus. Standardmäßig werden aktive Jobs automatisch erneut in die Warteschlange gestellt, können aber Fehler aufweisen oder fehlschlagen.
- Mein Kapazitätsblock ist abgelaufen. Sollte ich etwas tun?
-
Du musst nichts tun. Sie können den Status Ihrer EC2 Kapazitätsreservierungen auf der EC2 Amazon-Konsole überprüfen. Wenn ein Kapazitätsblock abläuft, ist die diesem Kapazitätsblock zugeordnete Rechenknotengruppe weiterhin vorhanden und verarbeitet dieselben Warteschlangen. Die Rechenknotengruppe hat keine Instanzen zum Ausführen von Jobs. Sie können die Compute-Knotengruppe löschen oder sie von den Warteschlangen trennen, um zu verhindern, dass Benutzer Jobs einreichen, die nicht ausgeführt werden können.
- Ich möchte einen neuen Kapazitätsblock mit meiner AWS PCS-Compute-Knotengruppe verwenden. Was soll ich tun?
-
Wir empfehlen Ihnen, eine neue Rechenknotengruppe zu erstellen, um den neuen Kapazitätsblock zu verwenden. Weitere Informationen finden Sie unter Konfigurieren Sie eine AWS PCS-Rechenknotengruppe für die Verwendung eines Kapazitätsblocks.
- Wie kann ich einen Kapazitätsblock für Cluster und Dienste gemeinsam nutzen?
-
Sie können einen Kapazitätsblock auf mehrere Cluster und Dienste aufteilen. Um beispielsweise einen Kapazitätsblock mit 64
p5.48xlargeInstanzen mit 20 Knoten auf PCS-Cluster-1, 16 Knoten auf PCS-Cluster-2 und den verbleibenden Knoten für andere Dienste aufzuteilen, setzen Sie beide und auf 20 für PCS-Cluster-1minInstanceCountundmaxInstanceCount16 für PCS-Cluster-2. - Kann ich mehr als einen Kapazitätsblock oder kombinierte Kapazität mit einer Rechenknotengruppe verwenden?
-
Nein. Einer einzelnen Rechenknotengruppe kann nur 1 Kapazitätsblock zugeordnet werden. AWS PCS unterstützt keine Kapazitätsreservierungsgruppen, die mehrere Kapazitätsblöcke kombinieren.
- Woher weiß ich, wann meine Kapazitätsblöcke beginnen oder ablaufen?
-
Unabhängig von AWS PCS EC2 sendet Amazon ein
Capacity Block Reservation DeliveredEreignis, EventBridge wenn eine Kapazitätsblock-Reservierung beginnt, und einCapacity Block Reservation Expiration WarningEreignis 40 Minuten vor Ablauf der Kapazitätsblock-Reservierung. Weitere Informationen finden Sie unter Verwendung von Kapazitätsblöcken überwachen EventBridge im Amazon Elastic Compute Cloud-Benutzerhandbuch. - Wie verfolgt Slurm den Status meines Kapazitätsblocks?
-
Du kannst laufen
sinfo, um zu verstehen, wie AWS PCS den Capacity Block verwendet. In der folgenden Beispielausgabe ist eine Warteschlange einer Rechenknotengruppe zugeordnet, die 4 Instanzen aus einemactiveKapazitätsblock ausführt. Die Knoten befinden sich imidleSlurm-Status (zur Verwendung verfügbar und noch keinen Jobs zugewiesen).$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]Wenn sich die Knoten stattdessen im
maintStatus befinden, können Sie den Befehl ausführen,scontrol show resum Details zur Slurm-Reservierung zu sehen, die diesen Status kontrolliert. In der folgenden Beispielausgabe hat derscheduledCapacity-Block ein future Startdatum.$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - Wie kann ich feststellen, ob die Fehler, die ich beim Starten von Capacity erhalte, darauf zurückzuführen sind, dass mein Capacity-Block gemeinsam genutzt wird?
-
Unter Kapazitätsreservierungen in der EC2 Amazon-Konsole können Sie herausfinden, wie viele Instances aus dem Capacity Block aktiv bereitgestellt werden. Überprüfen Sie die Tags der einzelnen Instances, um herauszufinden, welcher Service oder Cluster sie verwendet. Beispielsweise verfügen alle Instanzen für AWS PCS über AWS PCS-Tags,
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqkdie angeben, zu welchen Clustern und Rechenknotengruppen die Instanz gehört. Sie können dann überprüfen, ob der Kapazitätsblock die maximale Kapazität erreicht hat.Sie verwenden
scontrol show nodes, um zu überprüfen, ob ein Capacity Block-Knoten in einem AWS PCS-Cluster Folgendes auslöstReservationCapacityExceeded:[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - Wie kann ich erzwingen, dass ein Job auf Capacity Block-gestützten Instances ausgeführt wird, wenn mehrere Rechenknotengruppen an dieselbe Warteschlange angehängt sind?
-
Sie können die Funktionen und Einschränkungen von Slurm verwenden, um einen Job an eine bestimmte Gruppe von Knoten zu binden. Wir empfehlen, Slurm-Gewichtungen nicht für jede Rechenknotengruppe festzulegen, da dies nur mit Knoten funktioniert, die sich nicht im
maintStatus befinden.