AWS PCS でのキャパシティブロックの使用に関するよくある質問

キャパシティブロックの料金を支払い、すぐに PCS AWS で使用しようとしましたが、コンピューティングノードグループの作成に失敗しました。何が起きたのか。

キャパシティブロックが scheduledまたは active状態ではない可能性があります。キャパシティブロックが scheduledまたはになったら、もう一度試してくださいactive。

PCS AWS でキャパシティブロックを使用していて、有効期限が切れる前に拡張機能を購入しました。PCS AWS で引き続き使用するにはどうすればよいですか？

AWS PCS でキャパシティブロックを引き続き使用するために何もする必要はありません。拡張機能の支払いが成功すると、キャパシティブロックの終了日が更新されます。キャパシティブロックの有効期限が切れない限り、コンピューティングノードグループは引き続き動作します。拡張機能の支払いが失敗した場合、キャパシティブロックは残りactive、コンピューティングノードグループはキャパシティブロックが元の終了日に期限切れになるまで動作します。

キャパシティブロックの有効期限が切れると、キューに入れられたジョブと実行中のジョブはどうなりますか？

キャパシティブロックの有効期限が切れる前に開始されなかったキューに入れられたジョブは、別のコンピューティングノードグループをキューにアタッチするか、コンピューティングノードグループを新しいキャパシティブロックで更新するまで保留中のままになります。ジョブは引き続きキューに送信できます。Slurm 設定はアクティブなジョブに影響します。デフォルトでは、アクティブなジョブは自動的に再キューに入れられますが、エラーが発生したり、失敗したりする可能性があります。

キャパシティブロックの有効期限が切れました。何かすべきですか？

何もする必要はありません。Amazon EC2 コンソールで EC2 キャパシティ予約のステータスを確認できます。キャパシティブロックの有効期限が切れても、そのキャパシティブロックに関連付けられたコンピューティングノードグループは引き続き存在し、同じキューを処理します。コンピューティングノードグループには、ジョブを実行するインスタンスがありません。コンピューティングノードグループを削除するか、キューとの関連付けを解除して、実行されないジョブをユーザーが送信しないようにできます。

AWS PCS コンピューティングノードグループで新しいキャパシティブロックを使用します。どうすればよいですか?

新しいキャパシティブロックを使用するには、新しいコンピューティングノードグループを作成することをお勧めします。詳細については、「キャパシティブロックを使用するように AWS PCS コンピューティングノードグループを設定する」を参照してください。

クラスターとサービス間で 1 つのキャパシティブロックを共有するにはどうすればよいですか？

キャパシティブロックは、複数のクラスターとサービスに分割できます。例えば、PCS-Cluster-1 に 20 個のノードを持つ 64 個のp5.48xlargeインスタンス、PCS-Cluster-2 に 16 個のノード、その他のサービスの残りのノードを持つキャパシティブロックを分割するには、PCS-Cluster-1 の場合は minInstanceCountとの両方maxInstanceCountを 20、PCS-Cluster-2 の場合は 16 に設定します。 PCS-Cluster-1

1 つ以上のキャパシティブロックまたは 1 つのコンピューティングノードグループの合計キャパシティを使用できますか？

いいえ。1 つのコンピューティングノードグループに関連付けることができるキャパシティブロックは 1 つだけです。 AWS PCS は、複数のキャパシティブロックを組み合わせたキャパシティ予約グループをサポートしていません。

キャパシティブロックがいつ開始または期限切れになるかを知るにはどうすればよいですか？

AWS PCS とは無関係に、Amazon EC2 はキャパシティブロック予約の開始時に EventBridge を介してCapacity Block Reservation Deliveredイベントを送信し、キャパシティブロック予約の有効期限が切れる 40 分前にCapacity Block Reservation Expiration Warningイベントを送信します。詳細については、「Amazon Elastic Compute Cloud ユーザーガイド」のEventBridge を使用したキャパシティブロックのモニタリング」を参照してください。

Slurm はキャパシティブロックの状態をどのように追跡しますか？

を実行してsinfo、PCS AWS がキャパシティブロックをどのように使用しているかを理解できます。次の出力例では、キューはキャパシティactiveブロックから 4 つのインスタンスを実行するコンピューティングノードグループに関連付けられています。ノードは Slurm idle 状態です (使用可能で、どのジョブにもまだ割り当てられていません）。


$ sinfo  
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST  
fanout up infinite 4 idle node-fanout-[1-4]

ノードが代わりに maint状態になっている場合は、 scontrol show resを実行して、この状態を制御する Slurm 予約の詳細を表示できます。次の出力例では、キャパシティブロックは将来の開始日scheduledになります。


$ scontrol show res                                                                                                  
ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00    
   Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES          
   TRES=cpu=16                                                                                                       
   Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null)                          
   MaxStartDelay=(null)                                                                                              
   Comment=node-fanout Scheduled

キャパシティブロックが共有されているために、キャパシティの起動中に発生するエラーがであるかどうかを確認するにはどうすればよいですか？

Amazon EC2 コンソールでキャパシティ予約をチェックして、キャパシティブロックからアクティブにプロビジョニングされているインスタンスの数を確認します。各インスタンスのタグをチェックして、どのサービスまたはクラスターがそれを使用しているかを確認します。たとえば、 AWS PCS のすべてのインスタンスには AWS 、インスタンスが属aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqkするクラスターとコンピューティングノードグループを示すなどの PCS タグがあります。その後、キャパシティブロックが最大キャパシティにあるかどうかを確認できます。

scontrol show nodes を使用して、 AWS PCS クラスターのキャパシティブロックノードがをトリガーしているかどうかを確認しますReservationCapacityExceeded。


[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2  
NodeName=test-8-gamma-cb-2 CoresPerSocket=1  
   CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00  
   AvailableFeatures=test-8-gamma-cb,gpu  
   ActiveFeatures=test-8-gamma-cb,gpu  
   Gres=gpu:H100:1  
   NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2  
   RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1  
   State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A  
   Partitions=my-q  
   BootTime=None SlurmdStartTime=None  
   LastBusyTime=Unknown ResumeAfterTime=None  
   CfgTRES=cpu=8,mem=249036M,billing=8  
   AllocTRES=  
   CurrentWatts=0 AveWatts=0  
   Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]

複数のコンピューティングノードグループが同じキューにアタッチされている場合、キャパシティブロックバックインスタンスでジョブを強制的に実行するにはどうすればよいですか？

Slurm の機能と制約を使用して、特定のノードセットにジョブをロックできます。コンピューティングノードグループごとに Slurm の重みを設定しないことをお勧めします。これは、 maint 状態ではないノードでのみ機能するためです。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

キャパシティブロックを使用するようにコンピューティングノードグループを設定する

便利な起動テンプレートパラメータ