As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Ciclo de vida e rótulos do Node
A Amazon SageMaker HyperPod realiza verificações profundas de saúde em instâncias de cluster durante a criação e atualização de HyperPod clusters antes do início do particionamento da GPU. HyperPod o agente de monitoramento de integridade monitora continuamente o status de integridade das instâncias particionadas por GPU.
Estados de configuração MIG
Os nós com configuração de partição de GPU passam por vários estados:
-
Pendente - O nó está sendo configurado com um perfil MIG
-
Configurando - o operador da GPU está aplicando o particionamento MIG
-
Sucesso - o particionamento da GPU foi concluído com sucesso
-
Falha - o particionamento da GPU encontrou um erro
Monitorando os estados dos nós
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
Etiquetas e tintas personalizadas
Você pode gerenciar a configuração do MIG com rótulos e manchas personalizados para rotular suas partições de GPU e aplicá-las em todas as instâncias:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }