

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在亚马逊中使用 GPU 分区 SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-gpu-partitioning"></a>

集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA 多实例 GPU (MIG) 技术启用 GPU 分区，将 GPU 资源分成更小的隔离实例，从而提高资源利用率。此功能提供了在单个 GPU 上同时运行多个规模较小的任务的能力，而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。

采用 MIG 技术的 GPU 分区支持 GPUs 并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源，可提供可预测的隔离。

## 优势
<a name="sagemaker-hyperpod-eks-gpu-partitioning-benefits"></a>
+ **提高 GPU 利用率**- GPUs 根据计算和内存要求进行分区，最大限度地提高计算效率
+ **任务隔离**-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行
+ **任务灵活性**-Support 支持在单个物理 GPU 上混合执行多种任务，全部并行运行
+ **灵活的设置管理**-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置，以及带有自定义标签的托管解决方案`kubectl`，可轻松配置和应用与 GPU 分区关联的标签

**重要**  
灵活的实例组（使用的实例组）不支持使用 `InstanceRequirements` MIG 进行 GPU 分区。要使用 MIG，请创建一个包含单个`InstanceType`实例组的实例组。

## 支持的实例类型
<a name="sagemaker-hyperpod-eks-gpu-partitioning-instance-types"></a>

以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区：

**A100 GPU 实例——实例类型/p** [4/ https://aws.amazon.com/ec2/](https://aws.amazon.com/ec2/instance-types/p4/)
+ **ml.p4d.24xlarge-8 NVIDIA A100（每个 G** PU 80GB） GPUs HBM2e 
+ **ml.p4de.24xlarge-8 NVIDIA A100（每个 GPU 80G** B） GPUs HBM2e 

**H100 GPU 实例——实例类型/p** [5/ https://aws.amazon.com/ec2/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5.48xlarge-8 NVIDIA H100**（每个 GPU 80GB） GPUs HBM3 

**H200 GPU 实例——实例类型/p** [5/ https://aws.amazon.com/ec2/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5e.48xlarge-8 NVIDIA H200（每个 G** PU 141GB） GPUs HBM3e 
+ **ml.p5en.48xlarge-8 NVIDIA H200（每个 GPU** 141GB） GPUs HBM3e 

**B200 GPU 实例—— https://aws.amazon.com/ec2/ 实例类型/** [p6/](https://aws.amazon.com/ec2/instance-types/p6/)
+ **ml.p6b.48xlarge-8 NVID** IA B200 GPUs

## GPU 分区
<a name="sagemaker-hyperpod-eks-gpu-partitioning-profiles"></a>

NVIDIA MIG 配置文件定义了 GPUs 分区的方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件：

**A100 GPU (ml.p4d.24xlarge)**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每 ml.p4d.24xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.5gb` | 5 | 7 | 56 | 
| `2g.10gb` | 10 | 3 | 24 | 
| `3g.20gb` | 20 | 2 | 16 | 
| `4g.20gb` | 20 | 1 | 8 | 
| `7g.40gb` | 40 | 1 | 8 | 

**H100 GPU (ml.p5.48xlarge)**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每个 ml.p5.48xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.10gb` | 10 | 7 | 56 | 
| `1g.20gb` | 20 | 4 | 32 | 
| `2g.20gb` | 20 | 3 | 24 | 
| `3g.40gb` | 40 | 2 | 16 | 
| `4g.40gb` | 40 | 1 | 8 | 
| `7g.80gb` | 80 | 1 | 8 | 

**H200 GPU（ml.p5e.48xlarge 和 ml.p5en.48xlarge）**


| 配置文件 | 内存（GB） | 每 GPU 的实例数 | 每 ml.p5en.48xlarge 的总数 | 
| --- | --- | --- | --- | 
| `1g.18gb` | 18 | 7 | 56 | 
| `1g.35gb` | 35 | 4 | 32 | 
| `2g.35gb` | 35 | 3 | 24 | 
| `3g.71gb` | 71 | 2 | 16 | 
| `4g.71gb` | 71 | 1 | 8 | 
| `7g.141gb` | 141 | 1 | 8 | 

**Topics**
+ [优势](#sagemaker-hyperpod-eks-gpu-partitioning-benefits)
+ [支持的实例类型](#sagemaker-hyperpod-eks-gpu-partitioning-instance-types)
+ [GPU 分区](#sagemaker-hyperpod-eks-gpu-partitioning-profiles)
+ [在亚马逊上设置 GPU 分区 SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning-setup.md)
+ [节点生命周期和标签](sagemaker-hyperpod-eks-gpu-partitioning-labels.md)
+ [使用 MIG 提交任务](sagemaker-hyperpod-eks-gpu-partitioning-task-submission.md)