本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 SageMaker AI 主控台開始使用 SageMaker HyperPod
下列教學課程示範如何建立新的 SageMaker HyperPod 叢集,並透過 SageMaker AI 主控台 UI 使用 Slurm 進行設定。遵循教學課程,您將建立具有三個 Slurm 節點 my-controller-group
、 my-login-group
和 的 HyperPod 叢集worker-group-1
。
建立叢集
若要導覽至 SageMaker HyperPod 叢集頁面並選擇 Slurm 協同運作,請遵循下列步驟。
開啟位於 https://https://console.aws.amazon.com/sagemaker/
的 Amazon SageMaker AI 主控台。 -
在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理。
-
在 SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集。
-
在建立 HyperPod 叢集下拉式清單中,選擇 Slurm 協調。
-
在 Slurm 叢集建立頁面上,您會看到兩個選項。選擇最適合您需求的選項。
-
快速設定 - 若要立即開始使用預設設定,請選擇快速設定。使用此選項,SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。
-
自訂設定 – 若要與現有 AWS 資源整合或具有特定的聯網、安全或儲存需求,請選擇自訂設定。使用此選項,您可以選擇使用現有資源或建立新的資源,也可以自訂最符合您需求的組態。
-
快速設定
在快速設定區段中,依照下列步驟建立具有 Slurm 協同運作的 HyperPod 叢集。
指定新叢集的名稱。您無法在建立叢集後變更名稱。
若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。
重要
您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請依照下列步驟來新增執行個體群組。
-
針對執行個體群組類型,為您的執行個體群組選擇類型。在本教學課程中,選擇適用於 的控制器 (標題)
my-controller-group
、適用於 的登入my-login-group
和適用於 的運算 (工作者)worker-group-1
。 -
針對名稱,指定執行個體群組的名稱。在本教學課程中,請建立三個名為
my-controller-group
、my-login-group
和 的執行個體群組worker-group-1
。 -
針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。在本教學課程中,
ml.c5.xlarge
針對my-controller-group
、ml.m5.4xlarge
針對my-login-group
和ml.trn1.32xlarge
針對 ,選取worker-group-1
。請務必選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的 來請求額外的配額SageMaker HyperPod 配額。
-
對於執行個體數量,請指定不超過叢集用量執行個體配額的整數。在本教學課程中,輸入所有三個群組的 1。
-
針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker
。叢集建立成功後,您可以 SSH 進入叢集執行個體 (節點),並透過執行df -h
命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、非執行個體且獨立保存的儲存體。 -
選擇新增執行個體群組。
本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。檢閱預設設定。
自訂設定
在自訂設定區段中,依照下列步驟建立具有 Slurm 協同運作的 HyperPod 叢集。
指定新叢集的名稱。您無法在建立叢集後變更名稱。
針對執行個體復原,選擇自動 - 建議或無。
設定您的網路設定以建立叢集。叢集建立後,就無法變更這些設定。
-
對於 VPC,如果您已經擁有允許 SageMaker AI 存取 VPC 的 VPC,請選擇自己的 VPC。若要建立新的 VPC,請遵循《Amazon Virtual Private Cloud 使用者指南》中建立 VPC 的指示。您可以將其保留為無,以使用預設 SageMaker AI VPC。
-
針對 VPC IPv4 CIDR 區塊,輸入 VPC 的起始 IP。
-
針對可用區域,選擇 HyperPod 將為叢集建立子網路的可用區域 (AZ)。選擇符合您加速運算容量位置的AZs。
-
對於安全群組,請建立安全群組,或選擇最多五個使用規則設定的安全群組,以允許 VPC 內的資源間通訊。
若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。
重要
您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請依照下列步驟來新增執行個體群組。
-
針對執行個體群組類型,選擇執行個體群組的類型。在本教學課程中,選擇適用於 的控制器 (標題)
my-controller-group
、適用於 的登入my-login-group
,以及適用於 的運算 (工作者)worker-group-1
。 -
針對名稱,指定執行個體群組的名稱。在本教學課程中,請建立三個名為
my-controller-group
、my-login-group
和 的執行個體群組worker-group-1
。 -
針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。在本教學課程中,
ml.c5.xlarge
針對my-controller-group
、ml.m5.4xlarge
針對my-login-group
和ml.trn1.32xlarge
針對 ,選取worker-group-1
。請務必選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的 來請求額外的配額SageMaker HyperPod 配額。
-
對於執行個體數量,請指定不超過叢集用量執行個體配額的整數。在本教學課程中,輸入所有三個群組的 1。
-
針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker
。成功建立叢集後,您可以將 SSH 插入叢集執行個體 (節點),並透過執行df -h
命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、非執行個體且獨立保留的儲存體。 -
選擇新增執行個體群組。
您可以選擇使用預設生命週期指令碼或自訂生命週期指令碼,這些指令碼將存放在您的 Amazon S3 儲存貯體中。您可以在 Awesome Distributed Training GitHub 儲存庫
-
對於生命週期指令碼,選擇使用預設或自訂生命週期指令碼。
-
針對生命週期指令碼的 S3 儲存貯體,選擇建立新的儲存貯體或使用現有的儲存貯體來存放生命週期指令碼。
選擇或建立允許 HyperPod 代表您執行和存取必要 AWS 資源的 IAM 角色。
設定要在 HyperPod 叢集上佈建的 FSx for Lustre 檔案系統。
-
對於檔案系統,選擇現有的 FSx for Lustre 檔案系統、建立新的 FSx for Lustre 檔案系統,或不佈建 FSx for Lustre 檔案系統。
-
針對每單位儲存的輸送量,選擇每個佈建儲存 TiB 可用的輸送量。
-
針對儲存容量,以 TB 為單位輸入容量值。
-
針對資料壓縮類型,選擇 LZ4 以啟用資料壓縮。
-
對於 Lustre 版本,請檢視新檔案系統建議的值。
對於標籤 - 選用,將索引鍵和值對新增至新叢集,並以 AWS 資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源。
部署資源
使用快速設定或自訂設定完成叢集組態後,請選擇下列選項以開始資源佈建和建立叢集。
-
Submit-SageMaker AI 將開始佈建預設組態資源並建立叢集。
-
下載 CloudFormation 範本參數 - 您將下載組態參數 JSON 檔案並執行 AWS CLI 命令來部署 CloudFormation 堆疊,以佈建組態資源並建立叢集。您可以視需要編輯下載的參數 JSON 檔案。如果您選擇此選項,請參閱 中的更多說明使用 AWS CloudFormation 範本建立 SageMaker HyperPod 叢集。
刪除叢集並清除資源
在您成功測試建立 SageMaker HyperPod 叢集之後,它會繼續以 InService
狀態執行,直到您刪除叢集為止。我們建議您在不使用時刪除使用隨需 SageMaker AI 執行個體建立的任何叢集,以避免根據隨需定價持續產生服務費用。在本教學課程中,您已建立由兩個執行個體群組組成的叢集。其中一個使用 C5 執行個體,因此請務必遵循 中的指示刪除叢集刪除 SageMaker HyperPod 叢集。
不過,如果您已建立具有預留運算容量的叢集,叢集的狀態不會影響服務計費。
若要從用於本教學課程的 S3 儲存貯體清除生命週期指令碼,請前往您在叢集建立期間使用的 S3 儲存貯體,並完全移除檔案。
如果您已測試在叢集上執行任何工作負載,請確定您是否已上傳任何資料,或您的任務是否已將任何成品儲存至不同的 S3 儲存貯體或檔案系統服務,例如 Amazon FSx for Lustre 和 Amazon Elastic File System。若要避免產生任何費用,請從儲存體或檔案系統刪除所有成品和資料。