本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
有關搭配 AWS PCS 使用容量區塊的常見問題
- 我剛支付容量區塊的費用,並立即嘗試將其與 AWS PCS 搭配使用,但運算節點群組建立失敗。發生了什麼?
-
您的容量區塊可能不是
scheduled或active狀態。請在容量區塊為scheduled或 後再試一次active。 - 我在 AWS PCS 中使用容量區塊,並在過期之前購買擴充功能。如何在 AWS PCS 中繼續使用它?
-
您不需要採取任何動作即可繼續使用 AWS PCS 中的容量區塊。容量區塊的結束日期會在您的延伸付款成功後更新。只要容量區塊沒有過期,運算節點群組就會繼續運作。如果您的延伸付款失敗,您的容量區塊仍會保留,
active且運算節點群組會持續運作,直到容量區塊在原始結束日期過期為止。 - 如果我的容量區塊過期,佇列和執行中的任務會發生什麼情況?
-
在容量區塊過期之前未啟動的佇列任務會保持待定狀態,直到您將另一個運算節點群組連接到佇列,或您使用新的容量區塊更新運算節點群組為止。您仍然可以將任務提交至佇列。您的 Slurm 設定會影響作用中的任務。根據預設,作用中任務會自動重新排入佇列,但可能會有錯誤或失敗。
- 我的容量區塊已過期。我應該做些事嗎?
-
您不需要執行任何動作。您可以檢查 Amazon EC2 主控台的 EC2 容量保留狀態。當容量區塊過期時,與該容量區塊相關聯的運算節點群組會繼續存在並處理相同的佇列。運算節點群組沒有任何執行個體可執行任務。您可以刪除運算節點群組,或取消其與佇列的關聯,以防止使用者提交無法執行的任務。
- 我想要在 AWS PCS 運算節點群組中使用新的容量區塊。我該怎麼辦?
-
我們建議您建立新的運算節點群組,以使用新的容量區塊。如需詳細資訊,請參閱設定 AWS PCS 運算節點群組以使用容量區塊。
- 如何跨叢集和服務共用 1 個容量區塊?
-
您可以將容量區塊分割到多個叢集和服務。例如,若要分割容量區塊,在 PCS-Cluster-1 上具有 20 個節點的 64 個
p5.48xlarge執行個體、在 PCS-Cluster-2 上具有 16 個節點,以及其他服務的其餘節點,請將 PCS-Cluster-1maxInstanceCountminInstanceCount和 PCS-Cluster-2 的 和 16 設為 20。 - 我可以搭配 1 個運算節點群組使用超過 1 個容量區塊或合併容量嗎?
-
否。只有 1 個容量區塊可以與單一運算節點群組相關聯。 AWS PCS 不支援結合多個容量區塊的容量保留群組。
- 如何知道我的容量區塊何時開始或過期?
-
與 AWS PCS 無關,Amazon EC2 會在容量區塊保留開始時透過 EventBridge 傳送
Capacity Block Reservation Delivered事件,並在容量區塊保留到期前 40 分鐘傳送Capacity Block Reservation Expiration Warning事件。如需詳細資訊,請參閱《Amazon Elastic Compute Cloud 使用者指南》中的使用 EventBridge 監控容量區塊。 - Slurm 如何追蹤容量區塊的狀態?
-
您可以執行
sinfo以了解 AWS PCS 如何使用容量區塊。在下列範例輸出中,佇列與從active容量區塊執行 4 個執行個體的運算節點群組相關聯。節點處於idleSlurm 狀態 (可供使用且尚未配置給任何任務)。$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]如果節點處於
maint狀態,您可以執行scontrol show res以查看控制此狀態的 Slurm 保留的詳細資訊。在下列範例輸出中,容量區塊scheduled具有未來的開始日期。$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - 如何判斷我在啟動容量時遇到的錯誤是否因為共用容量區塊?
-
在 Amazon EC2 主控台中檢查容量保留,尋找容量區塊中有多少執行個體正在主動佈建。檢查每個執行個體的標籤,以尋找哪些服務或叢集使用它。例如, AWS PCS 的所有執行個體都有 AWS PCS 標籤
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk,例如指出執行個體所屬的叢集和運算節點群組。然後,您可以檢查容量區塊是否達到最大容量。您可以使用
scontrol show nodes來檢查 AWS PCS 叢集中的容量區塊節點是否正在觸發ReservationCapacityExceeded:[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - 當多個運算節點群組連接到相同的佇列時,如何強制任務在容量區塊支援的執行個體上執行?
-
您可以使用 Slurm 功能和限制條件,將任務鎖定到特定節點集。建議您不要為每個運算節點群組設定 Slurm 權重,因為 僅適用於未處於
maint狀態的節點。