建立具有受限制執行個體群組 (RIG) 的 HyperPod EKS 叢集 - Amazon SageMaker AI

建立具有受限制執行個體群組 (RIG) 的 HyperPod EKS 叢集

本主題說明使用受限制執行個體群組 (RIG) 建立 Amazon SageMaker HyperPod EKS 叢集的步驟。SageMaker HyperPod EKS 叢集中的 RIG 組態提供用於訓練 Amazon Nova 模型的專門環境。RIG 具有下列限制:

  • RIG 工作負載在無網際網路 VPC 中執行,所有輸入和輸出都會受到嚴格監管。

  • RIG 對 Kubernetes 函數 (例如 kubectl exec 和 logs) 的可觀測性有所限制,以確保 Nova 模型訓練的安全環境。

  • RIG 只允許 Nova 自訂映像,而與其他映像一起執行的任務將被拒絕。

您可以在設定 HyperPod EKS 叢集中的執行個體群組時建立 RIG。雖然您可以控制這些資源的大小和擴展,但您無法直接存取工作節點。此架構可確保 Nova 元件 (模型權重、檢查點、訓練資料和程式碼) 只能透過受監管的管道和服務受管帳戶系統存取。

SageMaker HyperPod 上的 Nova 模型自訂依賴服務受管 FSx for Lustre 檔案系統來達到最佳效能。建立 RIG 時,您必須指定 FSx for Lustre 檔案系統的磁碟區大小和輸送量,這會掛載到執行個體群組中的所有工作節點。FSx for Lustre 用於在分散訓練期間存放中繼檢查點和內部模型狀態。依照配方中提供的指導方針,選擇適當的磁碟區大小和輸送量,以確保有足夠的容量和效能。FSx for Lustre 用量成本將套用至您的 AWS 帳戶。

HyperPod EKS 叢集中 RIG 的重要說明

  • RIG 僅支援許可的執行角色。確保執行角色包含必要的 IAM 許可,例如存取 Amazon S3。

  • 使用服務受管 Amazon FSx for Lustre 和 Amazon S3 時,請確定 FSx for Lustre 檔案系統的大小適合您的工作負載。訓練資料資訊清單會上傳至 Amazon S3,必須由執行角色存取。

  • RIG 必須在新的 SageMaker HyperPod EKS 叢集上建立或更新,特別是在 2025 年 7 月 16 日當天或之後建立的叢集。在此日期之前建立的叢集可能包含不相容的軟體版本或 RIG 不支援的組態。

  • 僅支援於下列 AWS 區域 建立具有 RIG 的 HyperPod EKS 叢集:us-east-1

建立具有受限制執行個體群組的 HyperPod EKS 叢集 (主控台 - 建議)

本節提供使用 AWS 管理主控台 建立 HyperPod EKS 叢集的詳細指示,該叢集具有 Amazon Nova 自訂的受限制執行個體群組。如需更多詳細資訊,請參閱 使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集

注意

您必須在 us-east-1 中建立叢集,因為它是受限制執行個體群組的唯一支援 AWS 區域。

  1. 開啟 Amazon SageMaker AI 主控台,網址為 https://console.aws.amazon.com/sagemaker/

  2. 在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理

  3. SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集下拉式清單上,選擇透過 Amazon EKS 協調

  5. 在叢集建立頁面上,選擇快速設定。使用此選項,您可以立即開始使用預設設定。SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。

  6. 一般設定上,指定新叢集的名稱。在建立資料庫叢集之後,無法變更名稱。

  7. 執行個體群組上,選擇新增群組。每個執行個體群組的設定方式可以不同,而且您可以建立異質叢集,其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。

    請遵循下列步驟來新增執行個體群組。

    1. 針對執行個體群組類型,選擇受限制執行個體群組 (RIG)受限制執行個體群組 (RIG) 是基礎模型自訂的特殊環境,例如 Amazon Nova。標準提供一般用途的運算環境,而沒有額外的安全限制。

    2. 針對名稱,指定執行個體群組的名稱。

    3. 針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。

    4. 針對執行個體類型,選擇執行個體群組的執行個體。您必須選擇支援 Amazon Nova 模型自訂的執行個體類型,例如 ml.p5.48xlarge。此外,請確定您在 AWS 帳戶 中選擇具有足夠配額的執行個體類型。若要請求額外的配額,請參閱SageMaker HyperPod 配額

    5. 針對執行個體數量,指定不超過叢集用量之執行個體配額的整數。針對此快速入門指南,對您要建立的受限制執行個體輸入 1

    6. 針對目標可用區域,選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

    7. 針對每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 與 16384 之間的整數,以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。在成功建立叢集之後,您可以對叢集執行個體 (節點) 執行 SSH,並透過執行 df -h 命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。

    8. 針對執行個體深度運作狀態檢查,選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態,啟用時透過重新啟動或替換來自動復原故障的執行個體。

    9. 選擇新增執行個體群組

  8. 快速組態預設值上,檢閱預設設定。本節列出用於建立叢集的所有預設設定,包括將在叢集建立過程中建立的所有新 AWS 資源。

  9. 選擇提交

建立具有受限制執行個體群組 (CLI) 的 HyperPod EKS 叢集

請依照這些指示,使用 AWS CLI 建立具有 RIG 的 HyperPod EKS 叢集。