使用 CloudFormation 範本建立 SageMaker HyperPod 叢集
您可以使用 HyperPod 的 CloudFormation 範本來建立 SageMaker HyperPod 叢集。您必須安裝 AWS CLI 才能繼續進行。
在主控台中設定資源,並使用 CloudFormation 進行部署
您可以使用 AWS 管理主控台 設定資源,並使用 CloudFormation 範本進行部署。
請遵循下列步驟。
-
在 使用 SageMaker AI 主控台開始使用 SageMaker HyperPod 的教學課程結束時選擇下載 CloudFormation 範本參數,而不是選擇提交。教學課程包含您成功建立叢集所需的重要組態資訊。
重要
如果您選擇提交,在刪除叢集之前,您將無法部署名稱相同的叢集。
在選擇下載 CloudFormation 範本參數之後,頁面右側將會出現使用組態檔案來使用 AWS CLI 建立叢集視窗。
-
在使用組態檔案來使用 AWS CLI 建立叢集視窗上,選擇下載組態參數檔案。檔案將下載至您的電腦。您可以根據需求編輯組態 JSON 檔案,如果不需要變更,則請保持原狀。
-
在終端機中,導覽到參數檔案
file://params.json的位置。 -
執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,這將會佈建設定的資源並建立 HyperPod 叢集。
aws cloudformation create-stack --stack-namemy-stack--template-urlhttps://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台
。 在叢集建立完成之後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您也可以檢查其在狀態欄下顯示的狀態。
-
在叢集的狀態變為
InService之後,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務。
使用 CloudFormation 設定資源並進行部署
您可以使用 SageMaker HyperPod 的 CloudFormation 範本來設定資源並進行部署。
請遵循下列步驟。
-
從 sagemaker-hyperpod-cluster-setup
GitHub 儲存庫下載 SageMaker HyperPod 的 CloudFormation 範本。 -
執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,這將會佈建設定的資源並建立 HyperPod 叢集。
aws cloudformation create-stack --stack-namemy-stack--template-urlURL_of_the_file_that_contains_the_template_body--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台。
在叢集建立完成之後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您也可以檢查其在狀態欄下顯示的狀態。
-
在叢集的狀態變為
InService之後,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務。