Estados de configuración MIG Supervisión de los estados de los nodos Etiquetas y manchas personalizadas

Ciclo de vida y etiquetas de los nodos

Amazon SageMaker HyperPod realiza comprobaciones exhaustivas del estado de las instancias del clúster durante la creación y actualización de los HyperPod clústeres antes de que comience el particionamiento de la GPU. HyperPod el agente de monitoreo de estado monitorea continuamente el estado de las instancias particionadas por GPU.

Estados de configuración MIG

Los nodos con configuración de partición de GPU pasan por varios estados:

Pendiente: el nodo se está configurando con un perfil MIG
Configuración: el operador de la GPU está aplicando la partición MIG
Correcto: la partición de la GPU se completó correctamente
Fallo: se produjo un error al particionar la GPU

Supervisión de los estados de los nodos


# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Etiquetas y manchas personalizadas

Puedes gestionar la configuración de MIG con etiquetas y etiquetas personalizadas para etiquetar las particiones de la GPU y aplicarlas en todas las instancias:


{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configuración de particiones de GPU

Envío de tareas