建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 SageMaker HyperPod 叢集

請參閱下列有關使用 SageMaker HyperPod 主控台 UI 建立新的 SageMaker HyperPod 叢集的說明。

  1. 開啟位於 https://https://console.aws.amazon.com/sagemaker/ 的 Amazon SageMaker AI 主控台。

  2. 在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理

  3. 在 SageMaker HyperPod 登陸頁面中,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集的下拉式功能表中,選擇由 Amazon EKS 協調

  5. 從 Amazon EKS 叢集清單中,選擇您要用來設定新 HyperPod 叢集的 EKS 叢集。

    1. 如果您需要建立新的 EKS 叢集,請選擇建立 EKS 叢集。您可以從 EKS 叢集清單頁面建立它,而無需開啟 Amazon EKS 主控台。

      注意

      您為 HyperPod 選擇的 VPC 子網路必須是私有的。

    2. 提交新的 EKS 叢集建立請求後,請等待 EKS 叢集變為作用中。

    3. 依照 中的指示安裝 Helm Chart使用 Helm 在 Amazon EKS 叢集上安裝套件

    4. EKS 叢集建立完成後,請選擇建立 HyperPod 叢集,然後由 EKS 再次協調。您應該能夠找到並選取新的 EKS 叢集。若要繼續,請選擇選取

  6. 設定新的 HyperPod 叢集頁面上,設定叢集的基本資訊,例如名稱、啟用 HyperPod 叢集彈性功能的選項,以及標籤。

  7. 針對叢集名稱,指定新叢集的名稱。

  8. 對於叢集彈性 - 節點復原,指定 Automatic以啟用自動節點復原。當運作狀態監控代理程式發現問題時,SageMaker HyperPod 會取代或重新啟動執行個體 (節點)。

  9. 對於標籤,將金鑰和值對新增至新叢集,並以 AWS 資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源

  10. 步驟 2:指定聯網中,設定叢集內和叢集in-and-out的網路設定。對於使用 Amazon EKS 協調 SageMaker HyperPod 叢集,VPC 會自動設定為使用您選取的 EKS 叢集設定的 VPC。

  11. 步驟 3:設定執行個體群組中,選擇建立執行個體群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。

    建立執行個體群組快顯頁面上,選擇標準,依照 UI 指引設定新的執行個體群組。

    1. 針對執行個體群組名稱,指定執行個體群組的名稱。

    2. 針對選取執行個體類型,選擇執行個體群組的執行個體。

    3. 針對數量,指定不超過叢集用量執行個體配額的整數。

    4. 準備生命週期組態指令碼並上傳至 Amazon S3 儲存貯體,例如 s3://amzn-s3-demo-bucket/Lifecycle-scripts/base-config/

      若要快速開始,on_create.sh請從 AWS ome Distributed Training GitHub 儲存庫下載範例指令碼,並將其上傳至 S3 儲存貯體。您也可以包含額外的設定指示、一系列的設定指令碼,或要在 HyperPod 叢集佈建階段執行的命令。

    5. 針對生命週期指令碼的 S3 儲存貯體 URI,輸入儲存生命週期指令碼的 Amazon S3 路徑。

    6. 對於基本 Amazon S3 路徑中進入點指令碼的目錄路徑,在 Amazon S3 路徑至生命週期指令碼檔案下輸入生命週期指令碼的檔案名稱。如果您使用提供的範例指令碼,請輸入 on_create.sh

    7. 針對 IAM 角色,請按照 一節選擇您為 SageMaker HyperPod 資源建立的 IAM 角色SageMaker HyperPod 的 IAM 角色

    8. 進階組態下,您可以設定下列選用組態。

      1. (選用) 對於每個核心的執行緒,請1針對停用多執行緒和啟用多執行緒2指定 。若要尋找哪個執行個體類型支援多執行緒,請參閱《Amazon EC2 使用者指南》中的每個執行個體類型的 CPU 核心和每個 CPU 核心的執行緒參考表。

      2. (選用) 對於其他執行個體儲存體組態,指定 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。叢集成功建立後,您可以 SSH 進入叢集執行個體 (節點),並透過執行 df -h命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、執行個體外和獨立保存的儲存體。

    9. 針對深度運作狀態檢查,選取您要在執行個體上執行的進階運作狀態檢查。如需詳細資訊,請參閱 深層運作狀態檢查

  12. 步驟 3:設定執行個體群組中,選擇建立執行個體群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。

    建立執行個體群組快顯頁面上,選擇受限制執行個體群組 (RIG),依照 UI 指引設定新的受限制執行個體群組。只有在您想要為 Amazon Nova 模型自訂建立叢集時,才需要 RIG。如需詳細資訊,請參閱Amazon SageMaker HyperPod 上的 Amazon Nova 自訂 HyperPod

    1. 針對執行個體群組名稱,指定受限制執行個體群組的名稱。

    2. 針對選取執行個體類型,選擇受限制執行個體群組的執行個體。

    3. 針對數量,指定不超過叢集用量執行個體配額的整數。

    4. 針對執行個體群組 IAM 角色,選擇您為 SageMaker HyperPod 資源建立的 IAM 角色,請遵循 一節SageMaker HyperPod 的 IAM 角色

    5. Environment Config - FSx for Lustre 下,您可以設定下列選用組態。

      1. 針對每單位儲存的輸送量,選擇您需要的儲存單位。

      2. 針對儲存容量,輸入您需要的值。

    6. 對於叢集彈性 (加速運算執行個體的深度運作狀態檢查) - 選用,請根據您的使用案例選擇選項。如需詳細資訊,請參閱 深層運作狀態檢查

    7. 對於進階組態

      1. 每個核心的執行緒中,選擇您需要的數目。

      2. 每個執行個體大小的額外儲存磁碟區 (GB) - 選用中,指定要連接至執行個體群組中每個執行個體的額外彈性區塊存放區 (EBS) 磁碟區大小。

      3. 覆寫叢集層級子網路和安全群組設定中,選擇切換您需要的此設定。

        1. 針對子網路,在 SageMaker AI 支援的可用區域中選擇私有子網路。若要建立新的子網路,請前往 Amazon VPC 主控台。

        2. 對於安全群組 (Amazon EKS),選擇連接到 Amazon EKS 叢集或與 Amazon EKS 叢集相關聯的安全群組允許傳入流量的安全群組。若要建立新的安全群組,請前往 Amazon VPC 主控台。

    8. 選擇儲存

  13. 步驟 4:檢閱和建立中,檢閱您從步驟 1步驟 3 設定的組態,並完成提交叢集建立請求。

  14. 在叢集的狀態變為 後InService,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務