建立具有受限執行個體群組 (RIG) 的 HyperPod EKS 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立具有受限執行個體群組 (RIG) 的 HyperPod EKS 叢集

本主題涵蓋建立具有受限執行個體群組 (RIG) 的 Amazon SageMaker HyperPod EKS 叢集的步驟。SageMaker HyperPod EKS 叢集中的 RIG 組態提供訓練 Amazon Nova 模型的特殊環境。RIG 具有下列限制:

  • RIG 工作負載在無網際網路 VPC 中執行,所有輸入和輸出都會受到嚴格控管。

  • RIG 對 Kubernetes 函數的可觀測性有所限制,例如 Kubectl exec 和 日誌,以確保 Nova 模型訓練的安全環境。

  • RIG 只允許 Nova 自訂映像,而與其他映像一起執行的任務將被拒絕。

您可以在設定 HyperPod EKS 叢集中的執行個體群組時建立 RIGs。雖然您可以控制這些資源的大小和擴展,但您無法直接存取工作者節點。此架構可確保 Nova 元件 (模型權重、檢查點、訓練資料和程式碼) 只能透過受管制管道和服務受管帳戶系統存取。

SageMaker HyperPod 上的 Nova 模型自訂依賴服務管理的 FSx for Lustre 檔案系統來實現最佳效能。建立 RIG 時,您必須指定 FSx for Lustre 檔案系統的磁碟區大小和輸送量,這會掛載到執行個體群組中的所有工作者節點。FSx for Lustre 用於在分散式訓練期間存放中繼檢查點和內部模型狀態。遵循配方中提供的指引,選擇適當的磁碟區大小和輸送量,以確保足夠的容量和效能。FSx for Lustre 使用成本將套用至您的 AWS 帳戶。

HyperPod EKS 叢集中 RIG 的重要備註

  • RIG 僅支援將執行角色用於許可。確保執行角色包含必要的 IAM 許可,例如存取 Amazon S3。

  • 使用服務管理的 Amazon FSx for Lustre 和 Amazon S3 時,請確定 FSx for Lustre 檔案系統的大小適合您的工作負載。訓練資料資訊清單會上傳到 Amazon S3,必須由執行角色存取。

  • RIG 必須在新的 SageMaker HyperPod EKS 叢集上建立或更新,特別是在 2025 年 7 月 16 日當天或之後建立的叢集。在此日期之前建立的叢集可能包含不相容的軟體版本或 RIG 不支援的組態。

使用 RIG 建立 HyperPod EKS 叢集 (主控台)

請依照這些指示,使用 HyperPod 主控台建立具有 RIG 的 HyperPod EKS 叢集。

使用 RIG 建立 HyperPod EKS 叢集 (CLI)

請依照這些指示,使用 建立具有 RIG 的 HyperPod EKS 叢集 AWS CLI。