本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 SageMaker AI 主控台開始使用 SageMaker HyperPod
下列教學課程示範如何建立新的 SageMaker HyperPod 叢集,並透過 SageMaker AI 主控台 UI 使用 Slurm 進行設定。遵循教學課程,您將建立一個 HyperPod 叢集,其中具有三個 Slurm 節點,即 my-controller-group、my-login-group 和 worker-group-1。
建立叢集
若要導覽至 SageMaker HyperPod 叢集頁面並選擇 Slurm 協同運作,請遵循下列步驟。
開啟 Amazon SageMaker AI 主控台,網址為 https://console.aws.amazon.com/sagemaker/
。 -
在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理。
-
在 SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集。
-
在建立 HyperPod 叢集下拉式清單中,選擇透過 Slurm 協調。
-
在 Slurm 叢集建立頁面上,您會看到兩個選項。選擇最符合您需求的選項。
-
快速設定 - 若要立即開始使用預設設定,請選擇快速設定。使用此選項,SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。
-
自訂設定 - 若要與現有 AWS 資源整合,或具有特定的聯網、安全性或儲存需求,請選擇自訂設定。使用此選項,您可以選擇使用現有資源或建立新的資源,也可以自訂最符合您需求的組態。
-
在快速設定區段上,遵循下列步驟建立與 Slurm 協同運作的 HyperPod 叢集。
一般設定
指定新叢集的名稱。在建立資料庫叢集之後,無法變更名稱。
執行個體群組
若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定方式可以不同,而且您可以建立異質叢集,其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集,您必須為控制器和運算群組類型新增至少一個執行個體群組。
重要
您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請遵循下列步驟來新增執行個體群組。
-
針對執行個體群組類型,選擇執行個體群組的類型。針對本教學課程,為
my-controller-group選擇控制器 (主)、為my-login-group選擇登入,以及為worker-group-1選擇運算 (工作者)。 -
針對名稱,指定執行個體群組的名稱。針對本教學課程,請建立三個名為
my-controller-group、my-login-group和worker-group-1的執行個體群組。 -
針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。針對本教學課程,為
my-controller-group選取ml.c5.xlarge、為my-login-group選取ml.m5.4xlarge,以及為worker-group-1選取ml.trn1.32xlarge。重要
請務必為您的帳戶選擇具有足夠配額和足夠未指派 IP 位址的執行個體類型。若要檢視或請求額外配額,請參閱 SageMaker HyperPod 配額。
-
針對執行個體數量,指定不超過叢集用量之執行個體配額的整數。針對本教學課程,輸入 1 表示所有三個群組。
-
針對目標可用區域,選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
針對每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 與 16384 之間的整數,以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker。在成功建立叢集之後,您可以對叢集執行個體 (節點) 執行 SSH,並透過執行df -h命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。 -
選擇新增執行個體群組。
快速設定預設值
本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新AWS資源。檢閱預設設定。
在自訂設定區段上,遵循下列步驟使用 Slurm 協同運作建立 HyperPod 叢集。
一般設定
指定新叢集的名稱。在建立資料庫叢集之後,無法變更名稱。
針對執行個體復原,選擇自動 - 建議或無。
聯網
設定您的網路設定以建立叢集。叢集建立之後就無法變更這些設定。
-
針對 VPC,如果您已有允許 SageMaker AI 存取您 VPC 的 VPC,請選擇自己的 VPC。若要建立新的 VPC,請遵循《Amazon Virtual Private Cloud 使用者指南》中建立 VPC 的指示。您可以將其保留為無,以使用預設 SageMaker AI VPC。
-
針對 VPC IPv4 CIDR 區塊,輸入 VPC 的起始 IP。
-
針對可用區域,選擇 HyperPod 將在其中為叢集建立子網路的可用區域 (AZ)。選擇符合您加速運算容量位置的 AZ。
-
針對安全群組,建立安全群組,或選擇最多五個使用規則設定的安全群組,以允許 VPC 內的資源間通訊。
執行個體群組
若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定方式可以不同,而且您可以建立異質叢集,其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。
重要
您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請遵循下列步驟來新增執行個體群組。
-
針對執行個體群組類型,選擇執行個體群組的類型。針對本教學課程,為
my-controller-group選擇控制器 (主)、為my-login-group選擇登入,以及為worker-group-1選擇運算 (工作者)。 -
針對名稱,指定執行個體群組的名稱。針對本教學課程,請建立三個名為
my-controller-group、my-login-group和worker-group-1的執行個體群組。 -
針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。針對本教學課程,為
my-controller-group選取ml.c5.xlarge、為my-login-group選取ml.m5.4xlarge,以及為worker-group-1選取ml.trn1.32xlarge。重要
請務必為您的帳戶選擇具有足夠配額和足夠未指派 IP 位址的執行個體類型。若要檢視或請求額外配額,請參閱 SageMaker HyperPod 配額。
-
針對執行個體數量,指定不超過叢集用量之執行個體配額的整數。針對本教學課程,輸入 1 表示所有三個群組。
-
針對目標可用區域,選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
針對每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 與 16384 之間的整數,以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker。在成功建立叢集之後,您可以對叢集執行個體 (節點) 執行 SSH,並透過執行df -h命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。 -
選擇新增執行個體群組。
生命週期指令碼
您可以選擇使用預設生命週期指令碼或自訂生命週期指令碼,這些指令碼將存放在您的 Amazon S3 儲存貯體中。您可以在 Awesome Distributed Training GitHub 儲存庫
-
針對生命週期指令碼,選擇使用預設或自訂生命週期指令碼。
-
針對生命週期指令碼的 S3 儲存貯體,選擇建立新的儲存貯體或使用現有的儲存貯體來存放生命週期指令碼。
許可
選擇或建立允許 HyperPod 代表您執行和存取必要AWS資源的 IAM 角色。
儲存
設定要在 HyperPod 叢集上佈建的 FSx for Lustre 檔案系統。
-
針對檔案系統,選擇現有的 FSx for Lustre 檔案系統、建立新的 FSx for Lustre 檔案系統,或不佈建 FSx for Lustre 檔案系統。
-
針對每個儲存單位的輸送量,選擇每個佈建儲存 TiB 可用的輸送量。
-
針對儲存容量,以 TB 為單位輸入容量值。
-
針對資料壓縮類型,選擇 LZ4 以啟用資料壓縮。
-
針對 Lustre 版本,檢視新檔案系統的建議值。
標籤 - 選用
對於標籤 - 選用,將索引鍵和值對新增至新叢集,並以AWS資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源。
部署資源
在使用快速設定或自訂設定完成叢集組態之後,請選擇下列選項以開始佈建資源和建立叢集。
-
提交 - SageMaker AI 將開始佈建預設組態資源並建立叢集。
-
下載 CloudFormation 範本參數 - 您將下載組態參數 JSON 檔案並執行AWS CLI命令來部署 CloudFormation 堆疊,以佈建組態資源並建立叢集。如有需要,您可以編輯下載的參數 JSON 檔案。如果您選擇此選項,請參閱 使用 CloudFormation範本建立 SageMaker HyperPod 叢集 以取得更多指示。
刪除叢集並清理資源
在您成功測試了建立 SageMaker HyperPod 叢集之後,它會繼續以 InService 狀態執行,直到您刪除叢集為止。我們建議您任何使用隨需 SageMaker AI 執行個體建立的叢集,若未使用將其刪除,以避免根據隨需定價持續產生服務費用。在本教學課程中,您已建立由兩個執行個體群組構成的叢集。其中一個使用 C5 執行個體,因此請務必遵循刪除 SageMaker HyperPod 叢集中的指示刪除叢集。
不過,如果您建立了具有預留運算容量的叢集,叢集的狀態不會影響服務計費。
若要從用於本教學課程的 S3 儲存貯體中清除生命週期指令碼,請前往您在叢集建立期間使用的 S3 儲存貯體,並完全移除檔案。
如果您已測試在叢集上執行任何工作負載,請確定您是否已上傳任何資料,或您的任務是否已將任何成品儲存至不同的 S3 儲存貯體或檔案系統服務,例如 Amazon FSx for Lustre 和 Amazon Elastic File System。若要避免產生任何費用,請從儲存體或檔案系統刪除所有成品和資料。