有關搭配 AWS PCS 使用容量區塊的常見問題

我剛支付容量區塊的費用，並立即嘗試將其與 AWS PCS 搭配使用，但運算節點群組建立失敗。發生了什麼？

您的容量區塊可能不是 scheduled或 active 狀態。請在容量區塊為 scheduled或後再試一次active。

我在 AWS PCS 中使用容量區塊，並在過期之前購買擴充功能。如何在 AWS PCS 中繼續使用它？

您不需要採取任何動作即可繼續使用 AWS PCS 中的容量區塊。容量區塊的結束日期會在您的延伸付款成功後更新。只要容量區塊沒有過期，運算節點群組就會繼續運作。如果您的延伸付款失敗，您的容量區塊仍會保留，active且運算節點群組會持續運作，直到容量區塊在原始結束日期過期為止。

如果我的容量區塊過期，佇列和執行中的任務會發生什麼情況？

在容量區塊過期之前未啟動的佇列任務會保持待定狀態，直到您將另一個運算節點群組連接到佇列，或您使用新的容量區塊更新運算節點群組為止。您仍然可以將任務提交至佇列。您的 Slurm 設定會影響作用中的任務。根據預設，作用中任務會自動重新排入佇列，但可能會有錯誤或失敗。

我的容量區塊已過期。我應該做些事嗎？

您不需要執行任何動作。您可以檢查 Amazon EC2 主控台的 EC2 容量保留狀態。當容量區塊過期時，與該容量區塊相關聯的運算節點群組會繼續存在並處理相同的佇列。運算節點群組沒有任何執行個體可執行任務。您可以刪除運算節點群組，或取消其與佇列的關聯，以防止使用者提交無法執行的任務。

我想要在 AWS PCS 運算節點群組中使用新的容量區塊。我該怎麼辦？

我們建議您建立新的運算節點群組，以使用新的容量區塊。如需詳細資訊，請參閱設定 AWS PCS 運算節點群組以使用容量區塊。

如何跨叢集和服務共用 1 個容量區塊？

您可以將容量區塊分割到多個叢集和服務。例如，若要分割容量區塊，在 PCS-Cluster-1 上具有 20 個節點的 64 個p5.48xlarge執行個體、在 PCS-Cluster-2 上具有 16 個節點，以及其他服務的其餘節點，請將 PCS-Cluster-1 maxInstanceCount minInstanceCount和 PCS-Cluster-2 的和 16 設為 20。

我可以搭配 1 個運算節點群組使用超過 1 個容量區塊或合併容量嗎？

否。只有 1 個容量區塊可以與單一運算節點群組相關聯。 AWS PCS 不支援結合多個容量區塊的容量保留群組。

如何知道我的容量區塊何時開始或過期？

與 AWS PCS 無關，Amazon EC2 會在容量區塊保留開始時透過 EventBridge 傳送Capacity Block Reservation Delivered事件，並在容量區塊保留到期前 40 分鐘傳送Capacity Block Reservation Expiration Warning事件。如需詳細資訊，請參閱《Amazon Elastic Compute Cloud 使用者指南》中的使用 EventBridge 監控容量區塊。

Slurm 如何追蹤容量區塊的狀態？

您可以執行 sinfo以了解 AWS PCS 如何使用容量區塊。在下列範例輸出中，佇列與從active容量區塊執行 4 個執行個體的運算節點群組相關聯。節點處於 idle Slurm 狀態（可供使用且尚未配置給任何任務）。


$ sinfo  
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST  
fanout up infinite 4 idle node-fanout-[1-4]

如果節點處於 maint 狀態，您可以執行 scontrol show res以查看控制此狀態的 Slurm 保留的詳細資訊。在下列範例輸出中，容量區塊scheduled具有未來的開始日期。


$ scontrol show res                                                                                                  
ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00    
   Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES          
   TRES=cpu=16                                                                                                       
   Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null)                          
   MaxStartDelay=(null)                                                                                              
   Comment=node-fanout Scheduled

如何判斷我在啟動容量時遇到的錯誤是否因為共用容量區塊？

在 Amazon EC2 主控台中檢查容量保留，尋找容量區塊中有多少執行個體正在主動佈建。檢查每個執行個體的標籤，以尋找哪些服務或叢集使用它。例如， AWS PCS 的所有執行個體都有 AWS PCS 標籤aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk，例如指出執行個體所屬的叢集和運算節點群組。然後，您可以檢查容量區塊是否達到最大容量。

您可以使用 scontrol show nodes來檢查 AWS PCS 叢集中的容量區塊節點是否正在觸發 ReservationCapacityExceeded：


[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2  
NodeName=test-8-gamma-cb-2 CoresPerSocket=1  
   CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00  
   AvailableFeatures=test-8-gamma-cb,gpu  
   ActiveFeatures=test-8-gamma-cb,gpu  
   Gres=gpu:H100:1  
   NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2  
   RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1  
   State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A  
   Partitions=my-q  
   BootTime=None SlurmdStartTime=None  
   LastBusyTime=Unknown ResumeAfterTime=None  
   CfgTRES=cpu=8,mem=249036M,billing=8  
   AllocTRES=  
   CurrentWatts=0 AveWatts=0  
   Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33]

當多個運算節點群組連接到相同的佇列時，如何強制任務在容量區塊支援的執行個體上執行？

您可以使用 Slurm 功能和限制條件，將任務鎖定到特定節點集。建議您不要為每個運算節點群組設定 Slurm 權重，因為僅適用於未處於 maint 狀態的節點。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

設定運算節點群組以使用容量區塊

實用的啟動範本參數