本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
分配 GPU 分区配额
您可以扩展计算配额分配以支持 GPU 分区,从而在 GPU 分区级别实现精细的资源共享。当集群支持 GPUs 启用 GPU 分区时,可以将每个物理 GPU 分成多个独立的 GPU,并 GPUs 具有定义的计算、内存和流式处理多处理器分配。有关 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。您可以为团队分配特定的 GPU 分区,允许多个团队共享一个 GPU,同时保持硬件级别的隔离和可预测的性能。
例如,可以将 8 个 H100 的 ml.p5.48xlarge 实例分区为 GPU 分区, GPUs 您可以根据不同的团队的任务要求将各个分区分配给不同的团队。指定 GPU 分区分配时, HyperPod 任务管理会根据 GPU 分区按比例计算 vCPU 和内存配额,类似于 GPU 级别的分配。这种方法通过消除空闲容量并在同一个物理 GPU 上的多个并发任务之间实现经济高效的资源共享,从而最大限度地提高 GPU 利用率。
创建计算配额
aws sagemaker create-compute-quota \ --name "fractional-gpu-quota" \ --compute-quota-config '{ "ComputeQuotaResources": [ { "InstanceType": "ml.p4d.24xlarge", "AcceleratorPartition": { "Count": 4, "Type": "mig-1g.5gb" } } ], "ResourceSharingConfig": { "Strategy": "LendAndBorrow", "BorrowLimit": 100 } }'
验证配额资源
# Check ClusterQueue kubectl get clusterqueues kubectl describe clusterqueueQUEUE_NAME# Check ResourceFlavors kubectl get resourceflavor kubectl describe resourceflavorFLAVOR_NAME