分配 GPU 分区配额 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分配 GPU 分区配额

您可以扩展计算配额分配以支持 GPU 分区,从而在 GPU 分区级别实现精细的资源共享。当集群支持 GPUs 启用 GPU 分区时,可以将每个物理 GPU 分成多个独立的 GPU,并 GPUs 具有定义的计算、内存和流式处理多处理器分配。有关 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。您可以为团队分配特定的 GPU 分区,允许多个团队共享一个 GPU,同时保持硬件级别的隔离和可预测的性能。

例如,可以将 8 个 H100 的 ml.p5.48xlarge 实例分区为 GPU 分区, GPUs 您可以根据不同的团队的任务要求将各个分区分配给不同的团队。指定 GPU 分区分配时, HyperPod 任务管理会根据 GPU 分区按比例计算 vCPU 和内存配额,类似于 GPU 级别的分配。这种方法通过消除空闲容量并在同一个物理 GPU 上的多个并发任务之间实现经济高效的资源共享,从而最大限度地提高 GPU 利用率。

创建计算配额

aws sagemaker create-compute-quota \ --name "fractional-gpu-quota" \ --compute-quota-config '{ "ComputeQuotaResources": [ { "InstanceType": "ml.p4d.24xlarge", "AcceleratorPartition": { "Count": 4, "Type": "mig-1g.5gb" } } ], "ResourceSharingConfig": { "Strategy": "LendAndBorrow", "BorrowLimit": 100 } }'

验证配额资源

# Check ClusterQueue kubectl get clusterqueues kubectl describe clusterqueue QUEUE_NAME # Check ResourceFlavors kubectl get resourceflavor kubectl describe resourceflavor FLAVOR_NAME