Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ciclo de vida y etiquetas de los nodos
Amazon SageMaker HyperPod realiza comprobaciones exhaustivas del estado de las instancias del clúster durante la creación y actualización de los HyperPod clústeres antes de que comience el particionamiento de la GPU. HyperPod el agente de monitoreo de estado monitorea continuamente el estado de las instancias particionadas por GPU.
Estados de configuración de MIG
Los nodos con configuración de partición de GPU pasan por varios estados:
-
Pendiente: el nodo se está configurando con un perfil MIG
-
Configuración: el operador de la GPU está aplicando la partición MIG
-
Correcto: la partición de la GPU se completó correctamente
-
Fallo: se produjo un error al particionar la GPU
Supervisión de los estados de los nodos
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
Etiquetas y manchas personalizadas
Puedes gestionar la configuración de MIG con etiquetas y etiquetas personalizadas para etiquetar las particiones de la GPU y aplicarlas en todas las instancias:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }