

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集
建立叢集

下列教學課程示範如何建立新的 SageMaker HyperPod 叢集，並透過 SageMaker AI 主控台 UI 使用 Amazon EKS 協同運作進行設定。

**Topics**
+ [

## 建立叢集
](#smcluster-getting-started-eks-console-create-cluster-page)
+ [

## 部署資源
](#smcluster-getting-started-eks-console-create-cluster-deploy)

## 建立叢集


若要導覽至 **SageMaker HyperPod 叢集**頁面，並選擇 Amazon EKS 協同運作，請遵循下列步驟。

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在左側導覽窗格中選擇 **HyperPod 叢集**，然後選擇**叢集管理**。

1. 在 **SageMaker HyperPod 叢集**頁面上，選擇**建立 HyperPod 叢集**。

1. 在**建立 HyperPod 叢集**下拉式清單上，選擇**透過 Amazon EKS 協調**。

1. 在 EKS 叢集建立頁面上，您會看到兩個選項，選擇最符合您需求的選項。

   1. **快速設定** - 若要立即開始使用預設設定，請選擇**快速設定**。使用此選項，SageMaker AI 將在建立叢集的過程中建立新的資源，例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。

   1. **自訂設定** - 若要與現有 AWS 資源整合，或具有特定的聯網、安全性或儲存需求，請選擇**自訂設定**。使用此選項，您可以選擇使用現有資源或建立新的資源，也可以自訂最符合您需求的組態。

## 快速設定


在**快速設定**區段上，遵循下列步驟使用 Amazon EKS 協同運作建立 HyperPod 叢集。

### 一般設定


指定新叢集的名稱。在建立資料庫叢集之後，無法變更名稱。

### 執行個體群組


若要新增執行個體群組，請選擇**新增群組**。每個執行個體群組的設定方式可以不同，而且您可以建立異質叢集，其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集，您必須至少新增一個執行個體群組。請遵循下列步驟來新增執行個體群組。

1. 針對**執行個體群組類型**，選擇**標準**或**受限制執行個體群組 (RIG)**。一般而言，您將選擇**標準**，其會提供一般用途的運算環境，而沒有額外的安全限制。**受限制執行個體群組 (RIG)** 是基礎模型自訂的特殊環境，例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊，請參閱《Amazon [Nova 1.0 使用者指南》](https://docs.aws.amazon.com//nova/latest/userguide/nova-hp.html)或《Amazon Nova 2.0 使用者指南》中的 SageMaker HyperPod 上的 Amazon Nova 自訂。 [https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html](https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html)

1. 針對**名稱**，指定執行個體群組的名稱。

1.  針對**執行個體容量**，選擇隨需容量或訓練計劃以預留您的運算資源。

1. 針對**執行個體類型**，選擇執行個體群組的執行個體。
**重要**  
請務必為您的帳戶選擇具有足夠配額和足夠未指派 IP 位址的執行個體類型。若要檢視或請求額外配額，請參閱 [SageMaker HyperPod 配額](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas)。

1. 針對**執行個體數量**，指定不超過叢集用量之執行個體配額的整數。針對本教學課程，輸入 **1** 表示所有三個群組。

1. 針對**目標可用區域**，選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

1. 針對**每個執行個體的額外儲存磁碟區 (GB) - 選用**，請指定介於 1 與 16384 之間的整數，以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 `/opt/sagemaker`。在成功建立叢集之後，您可以對叢集執行個體 (節點) 執行 SSH，並透過執行 `df -h` 命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》**中的 [Amazon EBS 磁碟區](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html)一節所述，連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。

1. 針對**執行個體深度運作狀態檢查**，選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態，啟用時透過重新啟動或替換來自動復原故障的執行個體。

1. 如果您的執行個體類型支援使用多執行個體 GPU (MIG) 的 GPU 分割，您可以為執行個體群組啟用 GPU 分割區組態。GPU 分割可讓您將 GPUs 分割為較小的隔離分割區，以改善資源使用率。如需詳細資訊，請參閱[在 Amazon SageMaker HyperPod 中使用 GPU 分割區](sagemaker-hyperpod-eks-gpu-partitioning.md)。

   1. 切換 **使用 GPU 分割區**來啟用此執行個體群組的 GPU 分割區。

   1. 從執行個體類型的可用選項中選取 **GPU 分割區描述**檔。每個設定檔都會定義 GPU 配量組態和記憶體配置。

1. 選擇**新增執行個體群組**。

### 快速設定預設值


本節列出叢集建立的所有預設設定，包括在叢集建立程序期間建立的所有新 AWS 資源。檢閱預設設定。

## 自訂設定


在**自訂設定**區段中，遵循下列步驟使用 Amazon EKS 協同運作建立您的第一個 HyperPod 叢集。

### 一般設定


指定新叢集的名稱。在建立資料庫叢集之後，無法變更名稱。

針對**執行個體復原**，選擇**自動 - *建議***或**無**。

### 聯網


設定叢集內和進出叢集的網路設定。對於 SageMaker HyperPod 叢集與 Amazon EKS 的協同運作，VPC 會自動設定為使用您選取的 EKS 叢集設定的 VPC。

1. 針對 **VPC**，如果您已有允許 SageMaker AI 存取您 VPC 的 VPC，請選擇自己的 VPC。若要建立新的 VPC，請遵循《Amazon Virtual Private Cloud 使用者指南》**中[建立 VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) 的指示。您可以將其保留為**無**，以使用預設 SageMaker AI VPC。

1. 針對 **VPC IPv4 CIDR 區塊**，輸入 VPC 的起始 IP。

1. 針對**可用區域**，選擇 HyperPod 將在其中為叢集建立子網路的可用區域 (AZ)。選擇符合您加速運算容量位置的 AZ。

1. 針對**安全群組**，選擇連接到 Amazon EKS 叢集的安全群組，或選擇與 Amazon EKS 叢集相關聯的安全群組允許其輸入流量的安全群組。若要建立新的安全群組，請前往 Amazon VPC 主控台。

### 協調


請遵循下列步驟建立或選取 Amazon EKS 叢集，以用作協調器。

1. 針對 **EKS 叢集**，選擇建立新的 Amazon EKS 叢集或使用現有的叢集。

   如果需要建立新的 EKS 叢集，您可以從 EKS 叢集區段建立它，而不必開啟 Amazon EKS 主控台。
**注意**  
您為 HyperPod 選擇的 VPC 子網路必須是私有的。  
提交新的 EKS 叢集建立請求後，請等待 EKS 叢集變成 `Active`。

1. 針對 **Kubernetes 版本**，從下拉式功能表中選擇版本。如需 Kubernetes 版本的詳細資訊，請參閱《Amazon EKS 使用者指南》**中的[了解 EKS 上的 Kubernetes 版本生命週期](https://docs.aws.amazon.com//eks/latest/userguide/kubernetes-versions.html)。

1. 針對**運算子**，選擇**使用預設 Helm Chart 和附加元件**，或**請勿安裝運算子**。選項預設為**使用預設 Helm Chart 和附加元件**，將用來在 EKS 叢集上安裝運算子。如需預設 Helm Chart 和附加元件的詳細資訊，請參閱 GitHub 儲存庫中的 [https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart/HyperPodHelmChart](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart/HyperPodHelmChart)。如需詳細資訊，請參閱[使用 Helm 在 Amazon EKS 叢集上安裝套件](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md)。

1. 針對**已啟用的運算子**，檢視已啟用的運算子清單。若要編輯運算子，請取消勾選頂端的方塊，然後選擇要為 EKS 叢集啟用的運算子。
**注意**  
若要搭配 EKS 使用 HyperPod，您必須在 EKS 叢集上安裝啟用運算子的 Helm Chart 和附加元件。這些元件會將 EKS 設定為 HyperPod 的控制平面，並提供工作負載管理和協同運作所需的設定。

### 執行個體群組


若要新增執行個體群組，請選擇**新增群組**。每個執行個體群組的設定方式可以不同，而且您可以建立異質叢集，其中包含多個具有各種執行個體類型的執行個體群組。若要部署叢集，您必須至少新增一個執行個體群組。請遵循下列步驟來新增執行個體群組。

1. 針對**執行個體群組類型**，選擇**標準**或**受限制執行個體群組 (RIG)**。一般而言，您將選擇**標準**，其會提供一般用途的運算環境，而沒有額外的安全限制。**受限制執行個體群組 (RIG)** 是基礎模型自訂的特殊環境，例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊，請參閱《Amazon [Nova 1.0 使用者指南》](https://docs.aws.amazon.com//nova/latest/userguide/nova-hp.html)或《Amazon Nova 2.0 使用者指南》中的 SageMaker HyperPod 上的 Amazon Nova 自訂。 [https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html](https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html)

1. 針對**名稱**，指定執行個體群組的名稱。

1.  針對**執行個體容量**，選擇隨需容量或訓練計劃以預留您的運算資源。

1. 針對**執行個體類型**，選擇執行個體群組的執行個體。
**重要**  
請務必為您的帳戶選擇具有足夠配額和足夠未指派 IP 位址的執行個體類型。若要檢視或請求額外配額，請參閱 [SageMaker HyperPod 配額](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas)。

1. 針對**執行個體數量**，指定不超過叢集用量之執行個體配額的整數。針對本教學課程，輸入 **1** 表示所有三個群組。

1. 針對**目標可用區域**，選擇將佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

1. 針對**每個執行個體的額外儲存磁碟區 (GB) - 選用**，請指定介於 1 與 16384 之間的整數，以 GB 為單位設定額外彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 `/opt/sagemaker`。在成功建立叢集之後，您可以對叢集執行個體 (節點) 執行 SSH，並透過執行 `df -h` 命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》**中的 [Amazon EBS 磁碟區](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html)一節所述，連接額外的 EBS 磁碟區可提供穩定、與執行個體分離且獨立保留的儲存體。

1. 針對**執行個體深度運作狀態檢查**，選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態，啟用時透過重新啟動或替換來自動復原故障的執行個體。如需進一步了解，請參閱 [深層運作狀態檢查](sagemaker-hyperpod-eks-resiliency-deep-health-checks.md)

1. 針對**使用 GPU 分割區 - 選用**，如果您的執行個體類型支援多執行個體 GPU (MIG) 的 GPU 分割區，您可以啟用此選項來設定執行個體群組的 GPU 分割區設定檔。GPU 分割可讓您將 GPUs 分割為較小的隔離分割區，以改善資源使用率。如需詳細資訊，請參閱[在 Amazon SageMaker HyperPod 中使用 GPU 分割區](sagemaker-hyperpod-eks-gpu-partitioning.md)。

   1. 切換 **使用 GPU 分割區**來啟用此執行個體群組的 GPU 分割。

   1. 從執行個體類型的可用選項中選取 **GPU 分割區描述**檔。每個設定檔都會定義 GPU 配量組態和記憶體配置。

1. 選擇**新增執行個體群組**。

### 生命週期指令碼


您可以選擇使用預設生命週期指令碼或自訂生命週期指令碼，這些指令碼將存放在您的 Amazon S3 儲存貯體中。您可以在 [Awesome Distributed Training GitHub 儲存庫](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/7.sagemaker-hyperpod-eks/LifecycleScripts)中檢視預設生命週期指令碼。若要進一步了解生命週期指令碼，請參閱 [使用生命週期指令碼自訂 SageMaker HyperPod 叢集](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)。

1. 針對**生命週期指令碼**，選擇使用預設或自訂生命週期指令碼。

1. 針對**生命週期指令碼的 S3 儲存貯體**，選擇建立新的儲存貯體或使用現有的儲存貯體來存放生命週期指令碼。

### 許可


選擇或建立允許 HyperPod 代表您執行和存取必要 AWS 資源的 IAM 角色。如需詳細資訊，請參閱[SageMaker HyperPod 的 IAM 角色](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-role-for-hyperpod)。

### 儲存


設定要在 HyperPod 叢集上佈建的 FSx for Lustre 檔案系統。

1. 針對**檔案系統**，選擇現有的 FSx for Lustre 檔案系統、建立新的 FSx for Lustre 檔案系統，或不佈建 FSx for Lustre 檔案系統。

1. 針對**每個儲存單位的輸送量**，選擇每個佈建儲存 TiB 可用的輸送量。

1. 針對**儲存容量**，以 TB 為單位輸入容量值。

1. 針對**資料壓縮類型**，選擇 **LZ4** 以啟用資料壓縮。

1. 針對 **Lustre 版本**，檢視新檔案系統的建議值。

### 標籤 - 選用


對於**標籤 - *選用***，將索引鍵和值對新增至新叢集，並以 AWS 資源的形式管理叢集。若要進一步了解，請參閱[標記您的 AWS 資源](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html)。

## 部署資源


在使用**快速設定**或**自訂設定**完成叢集組態之後，請選擇下列選項以開始佈建資源和建立叢集。
+  **提交** - SageMaker AI 將開始佈建預設組態資源並建立叢集。
+ **下載 CloudFormation 範本參數** - 您將下載組態參數 JSON 檔案，並執行 AWS CLI 命令來部署 CloudFormation 堆疊，以佈建組態資源並建立叢集。如有需要，您可以編輯下載的參數 JSON 檔案。如果您選擇此選項，請參閱 [使用 CloudFormation 範本建立 SageMaker HyperPod 叢集](smcluster-getting-started-eks-console-create-cluster-cfn.md) 以取得更多指示。