在亚马逊中使用 GPU 分区 SageMaker HyperPod - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在亚马逊中使用 GPU 分区 SageMaker HyperPod

集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA 多实例 GPU (MIG) 技术启用 GPU 分区,将 GPU 资源分成更小的隔离实例,从而提高资源利用率。此功能使您能够在单个 GPU 上同时运行多个规模较小的任务,而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。

采用 MIG 技术的 GPU 分区支持 GPUs 并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源,可提供可预测的隔离。

优势

  • 提高 GPU 利用率- GPUs 根据计算和内存要求进行分区,最大限度地提高计算效率

  • 任务隔离-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行

  • 任务灵活性-Support 支持在单个物理 GPU 上混合执行多种任务,全部并行运行

  • 灵活的设置管理-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置,以及带有自定义标签的托管解决方案kubectl,可轻松配置和应用与 GPU 分区关联的标签

支持的实例类型

以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区:

A100 GPU 实例——实例类型/p 4/ https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge-8 NVIDIA A100(每个 G PU 80GB) GPUs HBM2e

  • ml.p4de.24xlarge-8 NVIDIA A100(每个 GPU 80G B) GPUs HBM2e

H100 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

  • ml.p5.48xlarge-8 NVIDIA H100(每个 GPU 80GB) GPUs HBM3

H200 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

  • ml.p5e.48xlarge-8 NVIDIA H200(每个 G PU 141GB) GPUs HBM3e

  • ml.p5en.48xlarge-8 NVIDIA H200(每个 GPU 141GB) GPUs HBM3e

B200 GPU 实例—— https://aws.amazon.com/ec2/ 实例类型/ p6/

  • ml.p6b.48xlarge-8 NVID IA B200 GPUs

GPU 分区

NVIDIA MIG 配置文件定义了 GPUs 分区的方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件:

A100 GPU (ml.p4d.24xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每 ml.p4d.24xlarge 的总数

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

H100 GPU (ml.p5.48xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每个 ml.p5.48xlarge 的总数

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

H200 GPU(ml.p5e.48xlarge 和 ml.p5en.48xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每 ml.p5en.48xlarge 的总数

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8