更新 AWS PCS 運算節點群組 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

更新 AWS PCS 運算節點群組

本主題提供可用選項的概觀,並說明更新 AWS PCS 運算節點群組時的考量事項。如需 Slurm 自訂設定的詳細資訊,請參閱 AWS PCS 運算節點群組的自訂 Slurm 設定

更新 AWS PCS 運算節點群組的選項

更新 AWS PCS 運算節點群組可讓您變更 AWS PCS 啟動之執行個體的屬性,以及這些執行個體如何啟動的規則。例如,您可以將節點群組執行個體的 AMI 取代為另一個已安裝不同軟體的 AMI。或者,您可以更新安全群組,以變更傳入或傳出網路連線。您也可以變更擴展組態和偏好的購買選項。

下列節點群組設定無法在建立後變更:

  • 名稱

  • 執行個體

更新 AWS PCS 運算節點群組時的考量事項

運算節點群組定義用於處理任務、提供互動式 shell 存取和其他任務的 EC2 執行個體。它們通常與一或多個 AWS PCS 佇列相關聯。當您更新運算節點群組以變更其行為 (或其節點的行為) 時,請考慮下列事項:

  • 當運算節點群組狀態從更新作用中時,運算節點群組屬性的變更就會生效。使用更新的屬性啟動新的執行個體。

  • 不會影響特定節點組態的更新不會影響執行中的節點。例如,新增子網路並變更配置策略。

  • 如果您更新運算節點群組的啟動範本,則必須更新運算節點群組以使用新版本。

  • 若要從運算節點群組中的節點新增或移除安全群組,請編輯其啟動範本並更新運算節點群組。使用更新的一組安全群組啟動新的執行個體。

  • 如果您直接編輯運算節點群組使用的安全群組,它會立即影響執行中和未來的執行個體。

  • 如果您從運算節點群組使用的 IAM 執行個體描述檔新增或移除許可,它會立即影響執行中和未來的執行個體。

  • 若要變更運算節點群組執行個體使用的 AMI,請更新運算節點群組 (或其啟動範本) 以使用新的 AMI,並等待 AWS PCS 取代執行個體。

  • AWS PCS 會在節點群組更新操作後取代節點群組中的現有執行個體。如果有任務在節點上執行,則允許在 AWS PCS 取代節點之前完成這些任務。互動式使用者程序 (例如登入節點執行個體) 會終止。當 AWS PCS 標記執行個體進行取代Active時,節點群組狀態會傳回 ,但實際取代會在執行個體閒置時發生。

  • 如果您減少運算節點群組中允許的執行個體數量上限, AWS PCS 會從 Slurm 移除節點,以符合新的上限。 AWS PCS 會終止與已移除 Slurm 節點相關聯的執行中執行個體。已移除節點上的執行中任務會失敗並返回其佇列。

  • AWS PCS 會為每個運算節點群組建立受管啟動範本。它們名為 pcs-identifier-do-not-delete。請勿在建立或更新運算節點群組時選取它們,否則節點群組將無法正常運作。

  • 如果您更新運算節點群組以使用 Spot 購買選項,則必須在帳戶中擁有 AWSServiceRoleForEC2Spot 服務連結角色。如需詳細資訊,請參閱AWS PCS 的 Amazon EC2 Spot 角色

更新 AWS PCS 運算節點群組

您可以使用 AWS 管理主控台或 AWS CLI 更新節點群組。

AWS Management Console
更新運算節點群組
  1. 在 開啟 AWS PCS 主控台 https://console.aws.amazon.com/pcs/home#/clusters

  2. 選取您要更新運算節點群組的叢集。

  3. 導覽至運算節點群組,前往您要更新的節點群組,然後選取編輯

  4. 運算組態其他設定Slurm自訂設定區段中,更新任何值,除了:

    • 執行個體 – 您無法變更運算節點群組中的執行個體。

    如需 Slurm 自訂設定的詳細資訊,請參閱 AWS PCS 運算節點群組的自訂 Slurm 設定

  5. 選擇更新。套用變更時,狀態欄位會顯示更新

    重要

    運算節點群組更新可能需要幾分鐘的時間。

AWS CLI
更新運算節點群組
  1. 使用下列命令更新您的運算節點群組。執行命令之前,請執行下列替換:

    1. region-code 取代為您要在其中建立叢集的 AWS 區域。

    2. my-node-group 取代computeNodeGroupId為運算節點群組的名稱或 。

    3. 以叢集的名稱或 取代 my-clusterclusterId

    aws pcs update-compute-node-group --region region-code \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-node-group
    範例 – 使用自訂 Slurm 設定更新運算節點群組
    aws pcs update-compute-node-group --region region-code \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-node-group \ --slurm-configuration \ 'slurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

    如需詳細資訊,請參閱AWS PCS 運算節點群組的自訂 Slurm 設定

  2. 更新 以外的任何節點群組參數--instance-configs。例如,若要設定新的 AMI ID,請傳遞 my-custom-ami-id 以您選擇的 AMI 取代--amiId my-custom-ami-id的位置。

重要

更新運算節點群組可能需要幾分鐘的時間。

您可以使用下列命令查詢節點群組的狀態。

aws pcs get-compute-node-group --region region-code \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-node-group