Ciclo de vida y etiquetas de los nodos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ciclo de vida y etiquetas de los nodos

Amazon SageMaker HyperPod realiza comprobaciones exhaustivas del estado de las instancias del clúster durante la creación y actualización de los HyperPod clústeres antes de que comience el particionamiento de la GPU. HyperPod el agente de monitoreo de estado monitorea continuamente el estado de las instancias particionadas por GPU.

Estados de configuración de MIG

Los nodos con configuración de partición de GPU pasan por varios estados:

  • Pendiente: el nodo se está configurando con un perfil MIG

  • Configuración: el operador de la GPU está aplicando la partición MIG

  • Correcto: la partición de la GPU se completó correctamente

  • Fallo: se produjo un error al particionar la GPU

Supervisión de los estados de los nodos

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Etiquetas y manchas personalizadas

Puedes gestionar la configuración de MIG con etiquetas y etiquetas personalizadas para etiquetar las particiones de la GPU y aplicarlas en todas las instancias:

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }