Creación de cuotas de cómputo Verificación de los recursos de cuotas

Asignación de la cuota de particiones de la GPU

Puede ampliar la asignación de cuotas de cómputo para admitir la partición de la GPU, lo que permite compartir recursos de forma pormenorizada a nivel de partición de la GPU. Cuando la partición de la GPU está habilitada o es compatible con GPUs el clúster, cada GPU física se puede dividir en varias GPU aisladas GPUs con asignaciones definidas de procesamiento, memoria y multiprocesador de streaming. Para obtener más información sobre la partición de la GPU, consulte. Uso de particiones de GPU en Amazon SageMaker HyperPod Puede asignar particiones de GPU específicas a los equipos, lo que permite que varios equipos compartan una sola GPU y, al mismo tiempo, mantenga el aislamiento a nivel de hardware y un rendimiento predecible.

Por ejemplo, una instancia ml.p5.48xlarge con 8 H100 se puede particionar en particiones de GPU, y GPUs puedes asignar particiones individuales a diferentes equipos en función de sus requisitos de tareas. Cuando especificas las asignaciones de particiones de GPU, el gobierno de HyperPod tareas calcula las cuotas proporcionales de vCPU y memoria en función de la partición de GPU, de forma similar a la asignación a nivel de GPU. Este enfoque maximiza el uso de la GPU, ya que elimina la capacidad inactiva y permite compartir recursos de forma rentable entre varias tareas simultáneas en la misma GPU física.

Creación de cuotas de cómputo


aws sagemaker create-compute-quota \
  --name "fractional-gpu-quota" \
  --compute-quota-config '{
    "ComputeQuotaResources": [
      {
        "InstanceType": "ml.p4d.24xlarge",
        "AcceleratorPartition": {
            "Count": 4,
            "Type": "mig-1g.5gb"
        }
      }
    ],
    "ResourceSharingConfig": { 
      "Strategy": "LendAndBorrow", 
      "BorrowLimit": 100 
    }
  }'

Verificación de los recursos de cuotas


# Check ClusterQueue
kubectl get clusterqueues
kubectl describe clusterqueue QUEUE_NAME

# Check ResourceFlavors
kubectl get resourceflavor
kubectl describe resourceflavor FLAVOR_NAME

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Asignación de recursos de computación

Comandos de ejemplo