As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Rótulos Kubernetes relacionados à resiliência da SageMaker HyperPod
Os rótulos são pares de valores-chave anexados aos objetos do Kubernetes
Etiquetas de status de integridade do nó
Os rótulos node-health-status representam o status de integridade do nó e devem ser usados como parte do filtro seletor de nós em nós saudáveis.
| Rótulo | Descrição |
|---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
Isso significa que o nó foi aprovado em verificações de integridade básicas ou em verificações profundas de integridade e está disponível para executar workloads. Essa verificação de integridade é a mesma dos recursos de SageMaker HyperPod resiliência atualmente disponíveis para clusters do Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
Isso significa que o nó está executando verificações aprofundadas de integridade e não está disponível para executar workloads. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
Isso significa que o nó não foi aprovado em verificações profundas de integridade ou em verificações do agente de monitoramento de integridade e precisa ser substituído. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
Isso significa que o nó não foi aprovado em verificações aprofundadas de integridade ou em verificações do agente de monitoramento de integridade e precisa ser substituído. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod |
Rótulos de verificação de integridade profunda
Os rótulos deep-health-check-status representam o progresso da verificação de integridade profunda em um nó específico. Útil para os usuários do Kubernetes filtrarem rapidamente o progresso das verificações gerais de integridade profundas.
| Rótulo | Descrição |
|---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
Isso significa que o nó está executando verificações aprofundadas de integridade e não está disponível para executar workloads. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
O nó concluiu com êxito as verificações profundas de saúde e as verificações do agente de monitoramento de integridade e está disponível para executar cargas de trabalho. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
Isso significa que o nó não foi aprovado em verificações aprofundadas de integridade ou em verificações do agente de monitoramento de integridade e precisa ser substituído. Se a recuperação automática do nó estiver ativada, o nó será automaticamente reinicializado ou substituído por. SageMaker HyperPod |
Rótulos de tipo e motivo da falha
O texto a seguir descreve os fault-reason rótulos fault-type e.
-
Os rótulos
fault-typerepresentam categorias de falhas de alto nível quando as verificações de integridade falham. Eles são preenchidos com as falhas identificadas durante as verificações profundas dos agentes de monitoramento da integridade e da integridade. -
Os rótulos
fault-reasonrepresentam o motivo detalhado da falha associado afault-typea.
Como os SageMaker HyperPod rótulos
Os tópicos a seguir abordam como a rotulagem é feita, dependendo de vários casos.
Tópicos
Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade desativada
Quando um novo nó é adicionado ao cluster, e se a verificação profunda de saúde não estiver habilitada para o grupo de instâncias, SageMaker HyperPod executa as mesmas verificações de saúde das verificações de SageMaker HyperPod saúde atualmente disponíveis para clusters do Slurm.
Se a verificação de integridade for aprovada, os nós serão marcados com o rótulo a seguir.
sagemaker.amazonaws.com/node-health-status: Schedulable
Se a verificação de integridade não for aprovada, os nós serão encerrados e substituídos. Esse comportamento é o mesmo que a verificação de SageMaker HyperPod integridade funciona para clusters do Slurm.
Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade ativada
Quando um novo nó é adicionado a um SageMaker HyperPod cluster e se o teste de verificação profunda de integridade estiver habilitado para o grupo de instâncias, HyperPod primeiro corrompe o nó e inicia o check/stress teste de integridade profundo de aproximadamente 2 horas no nó. Há 3 saídas possíveis dos rótulos dos nós após a verificação de integridade profunda.
-
Quando o teste de verificação de integridade profunda for aprovado
sagemaker.amazonaws.com/node-health-status: Schedulable -
Quando o teste de verificação de integridade profunda falha e a instância precisa ser substituída
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Quando o teste de verificação de integridade profunda falha e a instância precisa ser reinicializada para executar novamente a verificação de integridade profunda
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Se uma instância falhar no teste de verificação de integridade profunda, ela sempre será substituída. Se os testes de verificação de integridade profunda forem bem-sucedidos, a taint no nó será removida.
Quando há alguma falha de computação nos nós
O agente SageMaker HyperPod de monitoramento de saúde também monitora continuamente o status de saúde de cada nó. Quando detecta alguma falha (como falha na GPU e falha no driver), o agente marca o nó com um dos rótulos a seguir.
-
Quando o nó não está íntegro e precisa ser substituído
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement -
Quando o nó não está íntegro e precisa ser reinicializado
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
O agente de monitoramento de integridade também coloca uma taint no nó quando detecta qualquer problema de integridade do nó.