

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Étiquettes Kubernetes liées à la résilience par SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-resiliency-node-labels"></a>

Les *étiquettes* sont des paires clé-valeur associées à des objets [Kubernetes](https://kubernetes.io/docs/concepts/overview/working-with-objects/#kubernetes-objects). SageMaker HyperPod introduit les étiquettes suivantes pour les bilans de santé qu'il fournit.

## Étiquettes de statut d’intégrité des nœuds
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-health-status"></a>

Les étiquettes `node-health-status` représentent le statut de l’intégrité des nœuds et doivent être utilisées dans le cadre du filtre de sélection des nœuds dans les nœuds sains.


| Étiquette | Description | 
| --- | --- | 
| sagemaker.amazonaws.com/node-health-status: Schedulable | Le nœud a passé les vérifications de surveillance de l’état de base et il est disponible pour l’exécution des charges de travail. Ce bilan de santé est identique aux [fonctionnalités de SageMaker HyperPod résilience actuellement disponibles pour les clusters Slurm](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html). | 
| sagemaker.amazonaws.com/node-health-status: Unschedulable | Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement | Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par SageMaker HyperPod. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot | Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. SageMaker HyperPod | 

## Étiquettes de surveillance approfondie de l’état
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-deep-health-check"></a>

Les étiquettes `deep-health-check-status` représentent la progression de la surveillance approfondie de l’état sur un nœud spécifique. Utile pour les utilisateurs Kubernetes qui souhaitent filtrer rapidement la progression des vérifications de surveillance approfondie de l’état.


| Étiquette | Description | 
| --- | --- | 
| sagemaker.amazonaws.com/deep-health-check-status: InProgress | Le nœud fait l’objet de vérifications de surveillance approfondie de l’état et il n’est pas disponible pour exécuter les charges de travail. | 
| sagemaker.amazonaws.com/deep-health-check-status: Passed | Le nœud a effectué avec succès les vérifications de surveillance approfondie de l’état et les vérifications des agents de surveillance de l’état, et il est disponible pour exécuter des charges de travail. | 
| sagemaker.amazonaws.com/deep-health-check-status: Failed | Le nœud a échoué aux vérifications de surveillance approfondie de l’état ou aux vérifications de l’agent de surveillance de l’état et il a besoin d’être redémarré ou remplacé. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré ou remplacé par. SageMaker HyperPod | 

## Étiquettes relatives au type et à la raison de la défaillance
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-fault-type-and-reason"></a>

Ce qui suit décrit les `fault-reason` étiquettes `fault-type` et.
+ Les étiquettes `fault-type` représentent des catégories de défaillances de haut niveau lorsque les vérifications de surveillance de l’état échouent. Elles sont renseignées pour les défaillances identifiées à la fois lors des vérifications de surveillance approfondie de l’état et des agents de surveillance de l’état.
+ Les étiquettes `fault-reason` représentent la raison détaillée de la défaillance associée à un `fault-type`.

## Comment les SageMaker HyperPod étiquettes
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels"></a>

Les rubriques suivantes traitent de la manière dont l’étiquetage est effectué en fonction des cas.

**Topics**
+ [Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off)
+ [Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on)
+ [En cas de panne de calcul sur les nœuds](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails)

### Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état désactivée
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off"></a>

Lorsqu'un nouveau nœud est ajouté à un cluster, et si le contrôle de santé approfondi n'est pas activé pour le groupe d'instances, SageMaker HyperPod exécute les mêmes contrôles de santé que ceux [actuellement disponibles SageMaker HyperPod pour les clusters Slurm](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html). 

Si la surveillance de l’état réussit, les nœuds sont marqués avec l’étiquette suivante.

```
sagemaker.amazonaws.com/node-health-status: Schedulable
```

Si la surveillance de l’état n’aboutit pas, les nœuds sont résiliés et remplacés. Ce comportement est identique à la façon dont fonctionne le bilan SageMaker HyperPod de santé pour les clusters Slurm. 

### Lorsqu'un nœud est ajouté à un SageMaker HyperPod cluster avec la configuration de vérification approfondie de l'état activée
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on"></a>

Lorsqu'un nouveau nœud est ajouté à un SageMaker HyperPod cluster et si le test de santé approfondi est activé pour le groupe d'instances, HyperPod commencez par souiller le nœud et commencez le check/stress test de santé approfondi d'environ 2 heures sur le nœud. Il existe 3 sorties possibles des étiquettes des nœuds après la surveillance approfondie de l’état. 

1. Quand le test de surveillance approfondie de l’état réussit

   ```
   sagemaker.amazonaws.com/node-health-status: Schedulable
   ```

1. Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être remplacée

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. Quand le test de surveillance approfondie de l’état échoue et que l’instance doit être redémarrée pour réexécuter la surveillance approfondie de l’état

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

Si une instance échoue au test de surveillance approfondie de l’état, elle sera toujours remplacée. Si le test de surveillance approfondie de l’état réussit, le rejet du nœud sera supprimé.

### En cas de panne de calcul sur les nœuds
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails"></a>

L'agent SageMaker HyperPod de surveillance de l'état de santé surveille également en permanence l'état de santé de chaque nœud. Lorsqu’il détecte une défaillance (telle qu’une défaillance GPU ou un blocage du pilote), l’agent marque le nœud avec l’une des étiquettes suivantes.

1. Lorsque le nœud est défectueux et doit être remplacé

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. Lorsque le nœud est défectueux et doit être redémarré

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

 L’agent de surveillance de l’état rejette également le nœud lorsqu’il détecte des problèmes d’intégrité du nœud.