本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
更新 AWS PCS 運算節點群組
本主題提供可用選項的概觀,並說明更新 AWS PCS 運算節點群組時的考量事項。如需 Slurm 自訂設定的詳細資訊,請參閱 AWS PCS 運算節點群組的自訂 Slurm 設定。
更新 AWS PCS 運算節點群組的選項
更新 AWS PCS 運算節點群組可讓您變更 AWS PCS 啟動之執行個體的屬性,以及這些執行個體如何啟動的規則。例如,您可以將節點群組執行個體的 AMI 取代為另一個已安裝不同軟體的 AMI。或者,您可以更新安全群組,以變更傳入或傳出網路連線。您也可以變更擴展組態和偏好的購買選項。
下列節點群組設定無法在建立後變更:
更新 AWS PCS 運算節點群組時的考量事項
運算節點群組定義用於處理任務、提供互動式 shell 存取和其他任務的 EC2 執行個體。它們通常與一或多個 AWS PCS 佇列相關聯。當您更新運算節點群組以變更其行為 (或其節點的行為) 時,請考慮下列事項:
-
當運算節點群組狀態從更新到作用中時,運算節點群組屬性的變更就會生效。使用更新的屬性啟動新的執行個體。
-
不會影響特定節點組態的更新不會影響執行中的節點。例如,新增子網路並變更配置策略。
-
如果您更新運算節點群組的啟動範本,則必須更新運算節點群組以使用新版本。
-
若要從運算節點群組中的節點新增或移除安全群組,請編輯其啟動範本並更新運算節點群組。使用更新的安全群組集啟動新的執行個體。
-
如果您直接編輯運算節點群組使用的安全群組,它會立即影響執行中和未來的執行個體。
-
如果您從運算節點群組使用的 IAM 執行個體描述檔新增或移除許可,它會立即影響執行中和未來的執行個體。
-
若要變更運算節點群組執行個體使用的 AMI,請更新運算節點群組 (或其啟動範本) 以使用新的 AMI,並等待 AWS PCS 取代執行個體。
-
AWS PCS 會在節點群組更新操作後取代節點群組中的現有執行個體。如果有任務在節點上執行,則允許在 AWS PCS 取代節點之前完成這些任務。互動式使用者程序 (例如登入節點執行個體) 會終止。當 AWS PCS 標記執行個體進行取代Active時,節點群組狀態會傳回 ,但實際取代會在執行個體閒置時發生。
-
如果您減少運算節點群組中允許的執行個體數目上限, AWS PCS 會從 Slurm 移除節點,以符合新的上限。 AWS PCS 會終止與已移除 Slurm 節點相關聯的執行中執行個體。已移除節點上的執行中任務會失敗並返回其佇列。
-
AWS PCS 會為每個運算節點群組建立受管啟動範本。它們名為 pcs-identifier-do-not-delete。請勿在建立或更新運算節點群組時選取它們,否則節點群組將無法正常運作。
-
如果您更新運算節點群組以使用 Spot 購買選項,則必須在帳戶中擁有 AWSServiceRoleForEC2Spot 服務連結角色。如需詳細資訊,請參閱AWS PCS 的 Amazon EC2 Spot 角色。
更新 AWS PCS 運算節點群組
您可以使用 AWS 管理主控台或 AWS CLI 更新節點群組。
- AWS 管理主控台
-
更新運算節點群組
-
在 開啟 AWS PCS 主控台 https://console.aws.amazon.com/pcs/home#/clusters
-
選取您要更新運算節點群組的叢集。
-
導覽至運算節點群組,前往您要更新的節點群組,然後選取編輯。
-
在運算組態、其他設定和Slurm自訂設定區段中,更新任何值,除了:
如需 Slurm 自訂設定的詳細資訊,請參閱 AWS PCS 運算節點群組的自訂 Slurm 設定。
-
在排程器組態區段中,您可以更新縮減閒置時間以設定覆寫叢集預設值的新值 (1–10000000 秒),或將其清除以還原為叢集層級設定。此設定需要 25.11 Slurm版或更新版本。
-
選擇更新。套用變更時,狀態欄位會顯示更新。
- AWS CLI
-
更新運算節點群組
-
使用下列命令更新您的運算節點群組。執行命令之前,請執行下列替換:
-
將 region-code 取代為您要在其中建立叢集的 AWS 區域。
-
將 my-node-group 取代computeNodeGroupId為運算節點群組的名稱或 。
-
以叢集的名稱或 取代 my-clusterclusterId。
aws pcs update-compute-node-group --region region-code \
--cluster-identifier my-cluster \
--compute-node-group-identifier my-node-group
範例– 使用自訂 Slurm 設定更新運算節點群組
aws pcs update-compute-node-group --region region-code \
--cluster-identifier my-cluster \
--compute-node-group-identifier my-node-group \
--slurm-configuration \
'slurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'
如需詳細資訊,請參閱AWS PCS 運算節點群組的自訂 Slurm 設定。
範例– 更新運算節點群組的縮減閒置時間
aws pcs update-compute-node-group --region region \
--cluster-identifier my-cluster \
--compute-node-group-identifier my-gpu-nodes \
--slurm-configuration scaleDownIdleTimeInSeconds=600
您可以在現有的運算節點群組scaleDownIdleTimeInSeconds上更新 ,以覆寫叢集層級縮減閒置時間。有效值為 1–10000000。此設定需要 25.11 Slurm版或更新版本。
範例– 從運算節點群組移除縮減閒置時間覆寫
aws pcs update-compute-node-group --region region \
--cluster-identifier my-cluster \
--compute-node-group-identifier my-gpu-nodes \
--slurm-configuration scaleDownIdleTimeInSeconds=-1
scaleDownIdleTimeInSeconds 設定為 -1 以移除節點群組覆寫並還原至叢集層級設定。
-
更新 以外的任何節點群組參數--instance-configs。例如,若要設定新的 AMI ID,請傳遞 my-custom-ami-id 以您選擇的 AMI 取代--amiId my-custom-ami-id。
您可以使用下列命令查詢節點群組的狀態。
aws pcs get-compute-node-group --region region-code \
--cluster-identifier my-cluster \
--compute-node-group-identifier my-node-group