使用 CloudFormation 範本建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

使用 CloudFormation 範本建立 SageMaker HyperPod 叢集

您可以使用 HyperPod 的 CloudFormation 範本來建立 SageMaker HyperPod 叢集。您必須安裝 AWS CLI 才能繼續進行。

在主控台中設定資源,並使用 CloudFormation 進行部署

您可以使用 AWS 管理主控台 設定資源,並使用 CloudFormation 範本進行部署。

請遵循下列步驟。

  1. 使用 SageMaker AI 主控台開始使用 SageMaker HyperPod 的教學課程結束時選擇下載 CloudFormation 範本參數而不是選擇提交。教學課程包含您成功建立叢集所需的重要組態資訊。

    重要

    如果您選擇提交,在刪除叢集之前,您將無法部署名稱相同的叢集。

    在選擇下載 CloudFormation 範本參數之後,頁面右側將會出現使用組態檔案來使用 AWS CLI 建立叢集視窗。

  2. 使用組態檔案來使用 AWS CLI 建立叢集視窗上,選擇下載組態參數檔案。檔案將下載至您的電腦。您可以根據需求編輯組態 JSON 檔案,如果不需要變更,則請保持原狀。

  3. 在終端機中,導覽到參數檔案 file://params.json 的位置。

  4. 執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,這將會佈建設定的資源並建立 HyperPod 叢集。

    aws cloudformation create-stack --stack-name my-stack --template-url https://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  5. 若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台

    在叢集建立完成之後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您也可以檢查其在狀態欄下顯示的狀態。

  6. 在叢集的狀態變為 InService 之後,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務

使用 CloudFormation 設定和部署資源

您可以使用 SageMaker HyperPod 的 CloudFormation 範本來設定和部署資源。

請遵循下列步驟。

  1. sagemaker-hyperpod-cluster-setup GitHub 儲存庫下載 SageMaker HyperPod 的 CloudFormation 範本。

  2. 執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,這將會佈建設定的資源並建立 HyperPod 叢集。

    aws cloudformation create-stack --stack-name my-stack --template-url URL_of_the_file_that_contains_the_template_body --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  3. 若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台。

    在叢集建立完成之後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您也可以檢查其在狀態欄下顯示的狀態。

  4. 在叢集的狀態變為 InService 之後,您可以開始登入叢集節點。