本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
搭配 AWS PCS 使用適用於 ML 的 Amazon EC2 容量區塊
Amazon EC2 Capacity Blocks for ML 是一種 Amazon EC2 購買選項,可讓您預先付費,在特定日期和時間範圍內保留 GPU 加速運算執行個體,以支援短期工作負載。容量區塊內執行的執行個體會在 Amazon EC2 UltraCluster 內自動放置於鄰近位置,以實現低延遲、Pb 級的非阻塞式聯網。如需詳細資訊,請參閱《Amazon Elastic Compute Cloud 使用者指南》中的 ML 的容量區塊。
您可以使用啟動範本,讓 AWS PCS 在為運算節點群組啟動執行個體時,使用容量區塊。
注意
AWS PCS 僅支援 Slurm 24.05 版或更新版本的容量區塊。
限制
-
AWS PCS 僅支援具有 P5en, P5e, P5和 P4d 執行個體系列的容量區塊。
-
您一次只能將運算節點群組與 1 個容量區塊建立關聯。
-
您無法將運算節點群組與結合多個容量區塊的容量保留群組建立關聯。
-
容量區塊必須處於
scheduled或active狀態,才能與 AWS PCS 搭配使用。您無法在其他狀態下使用容量區塊,例如payment-failed。如需詳細資訊,請參閱《Amazon Elastic Compute Cloud 使用者指南》中的檢視容量區塊。
容量區塊過期
容量區塊僅限於特定的日期和時間範圍。當容量區塊過期時:
-
與該容量區塊相關聯的運算節點群組會繼續存在,並保持與相同佇列的關聯。
-
運算節點群組中的所有執行個體都會終止,且作用中任務可能會根據您的 Slurm 設定失敗。
-
AWS PCS 無法在運算節點群組中啟動新的執行個體。
-
所有佇列或新提交的任務都會保持待定狀態,直到另一個運算節點群組連接到佇列,或者您更新運算節點群組以使用指定新容量區塊的新啟動範本。