

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon SageMaker HyperPod 中使用 GPU 分割區
<a name="sagemaker-hyperpod-eks-gpu-partitioning"></a>

叢集管理員可以選擇如何將整個組織的 GPU 使用率最大化。您可以使用 NVIDIA Multi-Instance GPU (MIG) 技術啟用 GPU 分割，將 GPU 資源分割為較小的隔離執行個體，以提高資源使用率。此功能可讓您在單一 GPU 上同時執行多個較小大小的任務，而不是將整個硬體分配到一個經常未充分利用的任務。這可消除浪費的運算能力和記憶體。

使用 MIG 技術的 GPU 分割支援 GPUs，並可讓您將單一支援的 GPU 分割為最多七個不同的 GPU 分割區。每個 GPU 分割區都有專用記憶體、快取和運算資源，提供可預測的隔離。

## 優勢
<a name="sagemaker-hyperpod-eks-gpu-partitioning-benefits"></a>
+ **改善 GPU 使用率** - 根據運算和記憶體需求分割 GPUs，將運算效率最大化
+ **任務隔離** - 每個 GPU 分割區使用專用記憶體、快取和運算資源獨立運作
+ **任務彈性** - 支援在單一實體 GPU 上混合執行所有平行執行的任務
+ **靈活的設定管理** - 支援使用 Kubernetes 命令列用戶端 Do-it-yourself(DIY) Kubernetes 組態`kubectl`，以及具有自訂標籤的受管解決方案，以輕鬆設定和套用與 GPU 分割區相關聯的標籤

**重要**  
彈性執行個體群組 （使用 的執行個體群組`InstanceRequirements`) 不支援使用 MIG 的 GPU 分割。若要使用 MIG，請使用單一 建立執行個體群組`InstanceType`。

## 支援的執行個體類型
<a name="sagemaker-hyperpod-eks-gpu-partitioning-instance-types"></a>

下列 HyperPod 執行個體類型支援使用 MIG 技術的 GPU 分割：

**A100 GPU 執行個體** - https：//[https://aws.amazon.com/ec2/instance-types/p4/](https://aws.amazon.com/ec2/instance-types/p4/)
+ **ml.p4d.24xlarge** - 8 個 NVIDIA A100 GPUs （每個 GPU 80GB HBM2e)
+ **ml.p4de.24xlarge** - 8 個 NVIDIA A100 GPUs （每個 GPU 80GB HBM2e)

**H100 GPU 執行個體** - https：//[https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5.48xlarge** - 8 個 NVIDIA H100 GPUs （每個 GPU 80GB HBM3)

**H200 GPU 執行個體** - https：//[https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5e.48xlarge** - 8 個 NVIDIA H200 GPUs （每個 GPU 141GB HBM3e)
+ **ml.p5en.48xlarge** - 8 個 NVIDIA H200 GPUs （每個 GPU 141GB HBM3e)

**B200 GPU 執行個體** - https：//[https://aws.amazon.com/ec2/instance-types/p6/](https://aws.amazon.com/ec2/instance-types/p6/)
+ **ml.p6b.48xlarge** - 8 個 NVIDIA B200 GPUs

## GPU 分割區
<a name="sagemaker-hyperpod-eks-gpu-partitioning-profiles"></a>

NVIDIA MIG 設定檔定義 GPUs 的分割方式。每個設定檔都會指定每個 MIG 執行個體的運算和記憶體配置。以下是與每個 GPU 類型相關聯的 MIG 設定檔：

**A100 GPU (ml.p4d.24xlarge)**


| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p4d.24xlarge 總計 | 
| --- | --- | --- | --- | 
| `1g.5gb` | 5 | 7 | 56 | 
| `2g.10gb` | 10 | 3 | 24 | 
| `3g.20gb` | 20 | 2 | 16 | 
| `4g.20gb` | 20 | 1 | 8 | 
| `7g.40gb` | 40 | 1 | 8 | 

**H100 GPU (ml.p5.48xlarge)**


| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p5.48xlarge 總計 | 
| --- | --- | --- | --- | 
| `1g.10gb` | 10 | 7 | 56 | 
| `1g.20gb` | 20 | 4 | 32 | 
| `2g.20gb` | 20 | 3 | 24 | 
| `3g.40gb` | 40 | 2 | 16 | 
| `4g.40gb` | 40 | 1 | 8 | 
| `7g.80gb` | 80 | 1 | 8 | 

**H200 GPU (ml.p5e.48xlarge 和 ml.p5en.48xlarge)**


| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p5en.48xlarge 總計 | 
| --- | --- | --- | --- | 
| `1g.18gb` | 18 | 7 | 56 | 
| `1g.35gb` | 35 | 4 | 32 | 
| `2g.35gb` | 35 | 3 | 24 | 
| `3g.71gb` | 71 | 2 | 16 | 
| `4g.71gb` | 71 | 1 | 8 | 
| `7g.141gb` | 141 | 1 | 8 | 

**Topics**
+ [優勢](#sagemaker-hyperpod-eks-gpu-partitioning-benefits)
+ [支援的執行個體類型](#sagemaker-hyperpod-eks-gpu-partitioning-instance-types)
+ [GPU 分割區](#sagemaker-hyperpod-eks-gpu-partitioning-profiles)
+ [在 Amazon SageMaker HyperPod 上設定 GPU 分割區](sagemaker-hyperpod-eks-gpu-partitioning-setup.md)
+ [節點生命週期和標籤](sagemaker-hyperpod-eks-gpu-partitioning-labels.md)
+ [使用 MIG 提交任務](sagemaker-hyperpod-eks-gpu-partitioning-task-submission.md)