本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在亚马逊中使用 GPU 分区 SageMaker HyperPod
集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA 多实例 GPU (MIG) 技术启用 GPU 分区,将 GPU 资源分成更小的隔离实例,从而提高资源利用率。此功能使您能够在单个 GPU 上同时运行多个规模较小的任务,而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。
采用 MIG 技术的 GPU 分区支持 GPUs 并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源,可提供可预测的隔离。
优势
-
提高 GPU 利用率- GPUs 根据计算和内存要求进行分区,最大限度地提高计算效率
-
任务隔离-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行
-
任务灵活性-Support 支持在单个物理 GPU 上混合执行多种任务,全部并行运行
-
灵活的设置管理-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置,以及带有自定义标签的托管解决方案
kubectl,可轻松配置和应用与 GPU 分区关联的标签
支持的实例类型
以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区:
A100 GPU 实例——实例类型/p 4/ https://aws.amazon.com/ec2/
-
ml.p4d.24xlarge-8 NVIDIA A100(每个 G PU 80GB) GPUs HBM2e
-
ml.p4de.24xlarge-8 NVIDIA A100(每个 GPU 80G B) GPUs HBM2e
H100 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/
-
ml.p5.48xlarge-8 NVIDIA H100(每个 GPU 80GB) GPUs HBM3
H200 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/
-
ml.p5e.48xlarge-8 NVIDIA H200(每个 G PU 141GB) GPUs HBM3e
-
ml.p5en.48xlarge-8 NVIDIA H200(每个 GPU 141GB) GPUs HBM3e
B200 GPU 实例—— https://aws.amazon.com/ec2/ 实例类型/ p6/
-
ml.p6b.48xlarge-8 NVID IA B200 GPUs
GPU 分区
NVIDIA MIG 配置文件定义了 GPUs 分区的方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件:
A100 GPU (ml.p4d.24xlarge)
| 配置文件 | 内存(GB) | 每 GPU 的实例数 | 每 ml.p4d.24xlarge 的总数 |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100 GPU (ml.p5.48xlarge)
| 配置文件 | 内存(GB) | 每 GPU 的实例数 | 每个 ml.p5.48xlarge 的总数 |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200 GPU(ml.p5e.48xlarge 和 ml.p5en.48xlarge)
| 配置文件 | 内存(GB) | 每 GPU 的实例数 | 每 ml.p5en.48xlarge 的总数 |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |