Ciclo de vida e rótulos do Node - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ciclo de vida e rótulos do Node

A Amazon SageMaker HyperPod realiza verificações profundas de saúde em instâncias de cluster durante a criação e atualização de HyperPod clusters antes do início do particionamento da GPU. HyperPod o agente de monitoramento de integridade monitora continuamente o status de integridade das instâncias particionadas por GPU.

Estados de configuração MIG

Os nós com configuração de partição de GPU passam por vários estados:

  • Pendente - O nó está sendo configurado com um perfil MIG

  • Configurando - o operador da GPU está aplicando o particionamento MIG

  • Sucesso - o particionamento da GPU foi concluído com sucesso

  • Falha - o particionamento da GPU encontrou um erro

Monitorando os estados dos nós

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Etiquetas e tintas personalizadas

Você pode gerenciar a configuração do MIG com rótulos e manchas personalizados para rotular suas partições de GPU e aplicá-las em todas as instâncias:

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }