在亚马逊中使用 GPU 分区 SageMaker HyperPod - 亚马逊 SageMaker AI

优势支持的实例类型 GPU 分区

在亚马逊中使用 GPU 分区 SageMaker HyperPod

集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA 多实例 GPU (MIG) 技术启用 GPU 分区，将 GPU 资源分成更小的隔离实例，从而提高资源利用率。此功能提供了在单个 GPU 上同时运行多个规模较小的任务的能力，而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。

采用 MIG 技术的 GPU 分区支持 GPUs 并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源，可提供可预测的隔离。

优势

提高 GPU 利用率- GPUs 根据计算和内存要求进行分区，最大限度地提高计算效率
任务隔离-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行
任务灵活性-Support 支持在单个物理 GPU 上混合执行多种任务，全部并行运行
灵活的设置管理-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置，以及带有自定义标签的托管解决方案kubectl，可轻松配置和应用与 GPU 分区关联的标签

支持的实例类型

以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区：

A100 GPU 实例——实例类型/p 4/ https://aws.amazon.com/ec2/

ml.p4d.24xlarge-8 NVIDIA A100（每个 G PU 80GB） GPUs HBM2e
ml.p4de.24xlarge-8 NVIDIA A100（每个 GPU 80G B） GPUs HBM2e

H100 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

ml.p5.48xlarge-8 NVIDIA H100（每个 GPU 80GB） GPUs HBM3

H200 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

ml.p5e.48xlarge-8 NVIDIA H200（每个 G PU 141GB） GPUs HBM3e
ml.p5en.48xlarge-8 NVIDIA H200（每个 GPU 141GB） GPUs HBM3e

B200 GPU 实例—— https://aws.amazon.com/ec2/ 实例类型/ p6/

ml.p6b.48xlarge-8 NVID IA B200 GPUs

GPU 分区

NVIDIA MIG 配置文件定义了 GPUs 分区的方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件：

A100 GPU (ml.p4d.24xlarge)

配置文件	内存（GB）	每 GPU 的实例数	每 ml.p4d.24xlarge 的总数
`1g.5gb`	5	7	56
`2g.10gb`	10	3	24
`3g.20gb`	20	2	16
`4g.20gb`	20	1	8
`7g.40gb`	40	1	8

H100 GPU (ml.p5.48xlarge)

配置文件	内存（GB）	每 GPU 的实例数	每个 ml.p5.48xlarge 的总数
`1g.10gb`	10	7	56
`1g.20gb`	20	4	32
`2g.20gb`	20	3	24
`3g.40gb`	40	2	16
`4g.40gb`	40	1	8
`7g.80gb`	80	1	8

H200 GPU（ml.p5e.48xlarge 和 ml.p5en.48xlarge）

配置文件	内存（GB）	每 GPU 的实例数	每 ml.p5en.48xlarge 的总数
`1g.18gb`	18	7	56
`1g.35gb`	35	4	32
`2g.35gb`	35	3	24
`3g.71gb`	71	2	16
`4g.71gb`	71	1	8
`7g.141gb`	141	1	8

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

发行说明

设置 GPU 分区