

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Rótulos Kubernetes relacionados à resiliência da SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-resiliency-node-labels"></a>

Os *rótulos* são pares de valores-chave anexados aos objetos do [Kubernetes](https://kubernetes.io/docs/concepts/overview/working-with-objects/#kubernetes-objects). SageMaker HyperPod apresenta os seguintes rótulos para as verificações de saúde que ele fornece.

## Etiquetas de status de integridade do nó
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-health-status"></a>

Os rótulos `node-health-status` representam o status de integridade do nó e devem ser usados como parte do filtro seletor de nós em nós saudáveis.


| Rótulo | Description | 
| --- | --- | 
| sagemaker.amazonaws.com/node-health-status: Schedulable | Isso significa que o nó foi aprovado em verificações de integridade básicas ou em verificações profundas de integridade e está disponível para executar workloads. Essa verificação de integridade é a mesma dos [recursos de SageMaker HyperPod resiliência atualmente disponíveis para clusters do Slurm](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html). | 
| sagemaker.amazonaws.com/node-health-status: Unschedulable | Isso significa que o nó está executando verificações aprofundadas de integridade e não está disponível para executar workloads. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement | Isso significa que o nó não foi aprovado em verificações profundas de integridade ou em verificações do agente de monitoramento de integridade e precisa ser substituído. Se a recuperação automática do nó estiver ativada, o nó será automaticamente substituído por SageMaker HyperPod. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot | Isso significa que o nó não foi aprovado em verificações aprofundadas de integridade ou em verificações do agente de monitoramento de integridade e precisa ser substituído. Se a recuperação automática do nó estiver ativada, o nó será reinicializado automaticamente pelo. SageMaker HyperPod | 

## Rótulos de verificação de integridade profunda
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-deep-health-check"></a>

Os rótulos `deep-health-check-status` representam o progresso da verificação de integridade profunda em um nó específico. Útil para os usuários do Kubernetes filtrarem rapidamente o progresso das verificações gerais de integridade profundas.


| Rótulo | Description | 
| --- | --- | 
| sagemaker.amazonaws.com/deep-health-check-status: InProgress | Isso significa que o nó está executando verificações aprofundadas de integridade e não está disponível para executar workloads. | 
| sagemaker.amazonaws.com/deep-health-check-status: Passed | O nó concluiu com êxito verificações detalhadas de integridade e do agente de monitoramento de integridade e está disponível para executar workloads. | 
| sagemaker.amazonaws.com/deep-health-check-status: Failed | O nó não foi aprovado em verificações detalhadas de integridade ou do agente de monitoramento de integridade e precisa ser reinicializado ou substituído. Se a recuperação automática do nó estiver ativada, o nó será automaticamente reinicializado ou substituído por. SageMaker HyperPod | 

## Rótulos de tipo e motivo da falha
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-fault-type-and-reason"></a>

A seguir, descrevemos `fault-type` os `fault-reason` rótulos e.
+ Os rótulos `fault-type` representam categorias de falhas de alto nível quando as verificações de integridade falham. Eles são preenchidos com as falhas identificadas durante as verificações profundas dos agentes de monitoramento da integridade e da integridade.
+ Os rótulos `fault-reason` representam o motivo detalhado da falha associado a `fault-type` a.

## Como os SageMaker HyperPod rótulos
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels"></a>

Os tópicos a seguir abordam como a rotulagem é feita, dependendo de vários casos.

**Topics**
+ [Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade desativada](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off)
+ [Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade ativada](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on)
+ [Quando há alguma falha de computação nos nós](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails)

### Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade desativada
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off"></a>

Quando um novo nó é adicionado a um cluster e se a verificação profunda de saúde não está habilitada para o grupo de instâncias, SageMaker HyperPod executa as mesmas verificações de saúde que as verificações de [ SageMaker HyperPod saúde atualmente disponíveis para clusters do Slurm](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html). 

Se a verificação de integridade for aprovada, os nós serão marcados com o rótulo a seguir.

```
sagemaker.amazonaws.com/node-health-status: Schedulable
```

Se a verificação de integridade não for aprovada, os nós serão encerrados e substituídos. Esse comportamento é o mesmo que a verificação de SageMaker HyperPod integridade funciona para clusters do Slurm. 

### Quando um nó é adicionado a um SageMaker HyperPod cluster com a configuração de verificação profunda de integridade ativada
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on"></a>

Quando um novo nó é adicionado a um SageMaker HyperPod cluster e se o teste de verificação profunda de integridade estiver habilitado para o grupo de instâncias, HyperPod primeiro corrompe o nó e inicia o check/stress teste de integridade profundo de aproximadamente 2 horas no nó. Há 3 saídas possíveis dos rótulos dos nós após a verificação de integridade profunda. 

1. Quando o teste de verificação de integridade profunda for aprovado

   ```
   sagemaker.amazonaws.com/node-health-status: Schedulable
   ```

1. Quando o teste de verificação de integridade profunda falha e a instância precisa ser substituída

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. Quando o teste de verificação de integridade profunda falha e a instância precisa ser reinicializada para executar novamente a verificação de integridade profunda

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

Se uma instância falhar no teste de verificação de integridade profunda, ela sempre será substituída. Se os testes de verificação de integridade profunda forem bem-sucedidos, a taint no nó será removida.

### Quando há alguma falha de computação nos nós
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails"></a>

O agente SageMaker HyperPod de monitoramento de saúde também monitora continuamente o status de saúde de cada nó. Quando detecta alguma falha (como falha na GPU e falha no driver), o agente marca o nó com um dos rótulos a seguir.

1. Quando o nó não está íntegro e precisa ser substituído

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. Quando o nó não está íntegro e precisa ser reinicializado

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

 O agente de monitoramento de integridade também coloca uma taint no nó quando detecta qualquer problema de integridade do nó.