本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon SageMaker HyperPod 中使用 GPU 分割區
叢集管理員可以選擇如何將整個組織的 GPU 使用率最大化。您可以使用 NVIDIA 多執行個體 GPU (MIG) 技術啟用 GPU 分割,將 GPU 資源分割成較小、隔離的執行個體,以提高資源使用率。此功能可讓您在單一 GPU 上同時執行多個較小大小的任務,而不是將整個硬體分配到一個經常未充分利用的任務。這可消除浪費的運算能力和記憶體。
使用 MIG 技術的 GPU 分割支援 GPUs,並可讓您將單一支援的 GPU 分割為最多七個不同的 GPU 分割區。每個 GPU 分割區都有專用記憶體、快取和運算資源,提供可預測的隔離。
優勢
-
改善 GPU 使用率 - 根據運算和記憶體需求分割 GPUs,將運算效率最大化
-
任務隔離 - 每個 GPU 分割區使用專用記憶體、快取和運算資源獨立運作
-
任務彈性 - 支援在單一實體 GPU 上混合執行所有平行執行的任務
-
彈性的設定管理 - 支援使用 Kubernetes 命令列用戶端 Do-it-yourself(DIY) Kubernetes 組態
kubectl,以及具有自訂標籤的受管解決方案,以輕鬆設定和套用與 GPU 分割區相關聯的標籤
支援的執行個體類型
下列 HyperPod 執行個體類型支援使用 MIG 技術的 GPU 分割:
A100 GPU 執行個體 - https://https://aws.amazon.com/ec2/instance-types/p4/
-
ml.p4d.24xlarge - 8 個 NVIDIA A100 GPUs (每個 GPU 80GB HBM2e)
-
ml.p4de.24xlarge - 8 個 NVIDIA A100 GPUs (每個 GPU 80 GB HBM2e)
H100 GPU 執行個體 - https://https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5.48xlarge - 8 個 NVIDIA H100 GPUs (每個 GPU 80GB HBM3)
H200 GPU 執行個體 - https://https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5e.48xlarge - 8 個 NVIDIA H200 GPUs (每個 GPU 141GB HBM3e)
-
ml.p5en.48xlarge - 8 個 NVIDIA H200 GPUs (每個 GPU 141GB HBM3e)
B200 GPU 執行個體 - https://https://aws.amazon.com/ec2/instance-types/p6/
-
ml.p6b.48xlarge - 8 個 NVIDIA B200 GPUs
GPU 分割區
NVIDIA MIG 設定檔定義 GPUs 的分割方式。每個設定檔都會指定每個 MIG 執行個體的運算和記憶體配置。以下是與每個 GPU 類型相關聯的 MIG 設定檔:
A100 GPU (ml.p4d.24xlarge)
| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p4d.24xlarge 總計 |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100 GPU (ml.p5.48xlarge)
| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p5.48xlarge 總計 |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200 GPU (ml.p5e.48xlarge 和 ml.p5en.48xlarge)
| 設定檔 | 記憶體 (GB) | 每個 GPU 的執行個體 | 每 ml.p5en.48xlarge 總計 |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |