本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
更新 SageMaker HyperPod 叢集組態
執行 update-cluster 以更新叢集的組態。
注意
重要考量:
-
您無法在建立叢集之後變更 HyperPod 叢集相關聯的 EKS 叢集資訊。
-
如果叢集上執行深層運作狀態檢查,此 API 將無法如預期運作。您可能會遇到錯誤訊息,指出正在進行深層運作狀態檢查。若要更新叢集,您應該等到深層運作狀態檢查完成。
-
建立 JSON 格式的
UpdateClusterAPI 請求檔案。確保您指定要更新的正確叢集名稱和執行個體群組名稱。對於每個執行個體群組,您可以變更執行個體類型、執行個體數量、生命週期組態進入點指令碼,以及指令碼的路徑。注意
您可以使用
UpdateCluster從 SageMaker HyperPod 叢集縮減規模或移除整個執行個體群組。如需如何縮減或刪除執行個體群組的其他指示,請參閱 縮減 SageMaker HyperPod 叢集。-
針對
ClusterName,指定您要更新的叢集名稱。 -
針對
InstanceGroupName-
若要更新現有的執行個體群組,請指定您要更新的執行個體群組名稱。
-
若要新增執行個體群組,請指定叢集中不存在的新名稱。
-
-
針對
InstanceType-
若要更新現有的執行個體群組,您必須符合您最初指定給群組的執行個體類型。
-
若要新增執行個體群組,請指定您要透過其設定群組的執行個體類型。
-
-
針對
InstanceCount-
若要更新現有的執行個體群組,請指定對應至所需執行個體數量的整數。您可以提供更高或更低的值 (降至 0),以擴展或縮減執行個體群組。
-
若要新增執行個體群組,請指定大於或等於 1 的整數。
-
-
對於
LifeCycleConfig,您可以變更SourceS3Uri和OnCreate的值,因為您想要更新執行個體群組。 -
針對
ExecutionRole-
如需更新現有的執行個體群組,請繼續使用您在叢集建立期間連接的相同 IAM 角色。
-
如需新增執行個體群組,請指定您要連接的 IAM 角色。
-
-
針對
ThreadsPerCore-
如需更新現有的執行個體群組,請繼續使用您在叢集建立期間指定的相同值。
-
如需新增執行個體群組,您可以從每個執行個體類型的允許選項中選擇任何值。如需詳細資訊,請搜尋執行個體類型,並參閱參考表中的每個核心的有效執行緒數欄,此參考表位於《Amazon EC2 使用者指南》的每個執行個體類型的 CPU 核心數和每個 CPU 核心的執行緒數中。
-
-
針對
OnStartDeepHealthChecks,新增InstanceStress和InstanceConnectivity以啟用 深層運作狀態檢查。 -
針對
NodeRecovery,指定Automatic以啟用自動節點復原。當運作狀態監控代理程式發現問題時,SageMaker HyperPod 會取代或重新啟動執行個體 (節點)。
下列程式碼片段是您可以使用的 JSON 請求檔案範本。如需此 API 請求語法和參數的詳細資訊,請參閱 UpdateCluster API 參考。
// update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName":"string", "InstanceType":"string", "InstanceCount":number, "LifeCycleConfig": { "SourceS3Uri":"string", "OnCreate":"string"}, "ExecutionRole":"string", "ThreadsPerCore":number, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] }], "NodeRecovery": "Automatic" } -
-
執行下列
update-cluster命令以提交請求。aws sagemaker update-cluster \ --cli-input-jsonfile://complete/path/to/update_cluster.json