配置 GPU 分割區配額 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

配置 GPU 分割區配額

您可以擴展運算配額分配以支援 GPU 分割,在 GPU 分割區層級實現精細的資源共用。在叢集中支援的 GPUs 上啟用 GPU 分割時,每個實體 GPU 都可以分割成多個隔離的 GPUs,其中包含定義的運算、記憶體和串流多處理器配置。如需 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區。您可以將特定 GPU 分割區配置給團隊,讓多個團隊共用單一 GPU,同時維持硬體層級隔離和可預測的效能。

例如,具有 8 個 H100 GPUs 的 ml.p5.48xlarge 執行個體可以分割成 GPU 分割區,而且您可以根據其任務需求將個別分割區配置給不同的團隊。當您指定 GPU 分割區配置時,HyperPod 任務控管會根據 GPU 分割區計算比例 vCPU 和記憶體配額,類似於 GPU 層級配置。這種方法消除閒置容量,並在同一實體 GPU 上跨多個並行任務啟用經濟實惠的資源共用,從而最大限度地提高 GPU 使用率。

建立運算配額

aws sagemaker create-compute-quota \ --name "fractional-gpu-quota" \ --compute-quota-config '{ "ComputeQuotaResources": [ { "InstanceType": "ml.p4d.24xlarge", "AcceleratorPartition": { "Count": 4, "Type": "mig-1g.5gb" } } ], "ResourceSharingConfig": { "Strategy": "LendAndBorrow", "BorrowLimit": 100 } }'

驗證配額資源

# Check ClusterQueue kubectl get clusterqueues kubectl describe clusterqueue QUEUE_NAME # Check ResourceFlavors kubectl get resourceflavor kubectl describe resourceflavor FLAVOR_NAME