Amazon SageMaker HyperPod 快速入門 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 快速入門

此快速入門會逐步引導您建立第一個與 Slurm 和 Amazon EKS (EKS) 協同運作的 HyperPod 叢集。選擇最適合您基礎設施的協同運作,以開始使用 SageMaker HyperPod。

建立 Slurm 協作的 SageMaker HyperPod 叢集

請遵循下列步驟,建立第一個與 Slurm 協同運作的 SageMaker HyperPod 叢集。

  1. 開啟 Amazon SageMaker AI 主控台,網址為 https://console.aws.amazon.com/sagemaker/

  2. 在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理

  3. SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集下拉式清單中,選擇透過 Slurm 協調

  5. 在叢集建立頁面上,選擇快速設定。使用此選項,您可以立即開始使用預設設定。SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。

  6. 一般設定上,指定新叢集的名稱。在建立資料庫叢集之後,無法變更名稱。

  7. 執行個體群組上,選擇新增群組。每個執行個體群組的設定方式可以不同,而且您可以建立異質叢集,其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。

    請遵循下列步驟來新增執行個體群組。

    1. 針對執行個體群組類型,選擇執行個體群組的類型。在此快速入門中,為 my-controller-group 選擇控制器 (主)、為 my-login-group 選擇登入,以及為 worker-group-1 選擇運算 (工作者)

    2. 針對名稱,指定執行個體群組的名稱。針對此快速入門,建立三個名為 my-controller-groupmy-login-groupworker-group-1 的執行個體群組。

    3. 針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。

    4. 針對執行個體類型,選擇執行個體群組的執行個體。針對此快速入門,為 my-controller-group 選取 ml.c5.xlarge、為 my-login-group 選取 ml.m5.4xlarge,以及為 worker-group-1 選取 ml.trn1.32xlarge

      確定您選擇帳戶中具有足夠配額的執行個體類型,或遵循SageMaker HyperPod 配額中的指示請求額外的配額。

    5. 針對執行個體數量,指定不超過叢集用量之執行個體配額的整數。針對此快速入門,輸入 1 表示所有三個群組。

    6. 針對目標可用區域,選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

    7. 針對每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 與 16384 之間的整數,以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。在成功建立叢集之後,您可以對叢集執行個體 (節點) 執行 SSH,並透過執行 df -h 命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。

    8. 選擇新增執行個體群組

  8. 快速組態預設值上,檢閱預設設定。本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。

  9. 選擇提交

如需詳細資訊,請參閱使用 SageMaker AI 主控台開始使用 SageMaker HyperPod

建立 EKS 協作的 SageMaker HyperPod 叢集

請遵循下列步驟,建立第一個與 Amazon EKS 協同運作的 SageMaker HyperPod 叢集。

  1. 開啟 Amazon SageMaker AI 主控台,網址為 https://console.aws.amazon.com/sagemaker/

  2. 在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理

  3. SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集下拉式清單上,選擇透過 Amazon EKS 協調

  5. 在叢集建立頁面上,選擇快速組態。使用此選項,您可以立即開始使用預設設定。SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。

  6. 一般設定上,指定新叢集的名稱。在建立資料庫叢集之後,無法變更名稱。

  7. 執行個體群組上,選擇新增群組。每個執行個體群組的設定方式可以不同,而且您可以建立異質叢集,其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。

    請遵循下列步驟來新增執行個體群組。

    1. 針對執行個體群組類型,選擇標準受限制執行個體群組 (RIG)。一般而言,您將選擇標準,其會提供一般用途的運算環境,而沒有額外的安全限制。受限制執行個體群組 (RIG) 是基礎模型自訂的特殊環境,例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊,請參閱 Amazon SageMaker HyperPod 上的 Amazon Nova 自訂

    2. 針對名稱,指定執行個體群組的名稱。

    3. 針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。

    4. 針對執行個體類型,選擇執行個體群組的執行個體。確定您選擇帳戶中具有足夠配額的執行個體類型,或遵循SageMaker HyperPod 配額中的指示請求額外的配額。

    5. 針對執行個體數量,指定不超過叢集用量之執行個體配額的整數。針對此快速入門,輸入 1 表示所有三個群組。

    6. 針對目標可用區域,選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

    7. 針對每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 與 16384 之間的整數,以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。在成功建立叢集之後,您可以對叢集執行個體 (節點) 執行 SSH,並透過執行 df -h 命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。

    8. 針對執行個體深度運作狀態檢查,選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態,啟用時透過重新啟動或替換來自動復原故障的執行個體。

    9. 選擇新增執行個體群組

  8. 快速組態預設值上,檢閱預設設定。本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。

  9. 選擇提交

如需詳細資訊,請參閱使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集

提交工作負載

請遵循這些工作坊教學課程來提交範例工作負載。