Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Remplacement des nœuds défectueux par Amazon EMR
Amazon EMR utilise régulièrement le service de vérification de l'NodeManager état d'
Note
L'une des raisons les plus courantes pour lesquelles un nœud n'est pas en bon état est qu'il manque d'espace disque. Pour plus d'informations sur les situations où l'espace disque d'un nœud principal est presque épuisé, consultez l'article suivant du centre de connaissances RE:POST : Pourquoi le nœud principal de mon cluster Amazon EMR manque-t-il
Note
Hadoop permet d'effectuer des vérifications personnalisées de l'état des nœuds. Ceci est expliqué plus en détail dans la documentation d'Apache Hadoop à l'adresse. NodeManager
Vous pouvez choisir si Amazon EMR doit mettre fin aux nœuds défectueux ou les conserver dans le cluster. Si vous désactivez le remplacement de nœuds non sains, ils restent dans la liste des nœuds refusés et continuent à être pris en compte dans la capacité du cluster. Vous pouvez toujours vous connecter à votre instance EC2 principale Amazon pour la configuration et la restauration, afin de pouvoir redimensionner votre cluster si vous souhaitez ajouter de la capacité. Pour plus d'informations sur le fonctionnement du remplacement et de la résiliation des nœuds, consultez la section Utilisation de la protection contre la résiliation.
Si le remplacement de nœuds défectueux est activé, Amazon EMR met fin à un nœud principal défectueux et provisionne une nouvelle instance, en fonction du nombre d'instances du groupe d'instances ou de la capacité cible pour les flottes d'instances. Si des nœuds ne fonctionnent pas correctement pendant plus de 45 minutes, Amazon EMR les remplacera gracieusement. Si la mise hors service progressive d'un nœud n'est pas terminée dans un délai d'une heure, le nœud est arrêté de force, sauf si cette interruption met le cluster en dessous du facteur de réplication ou des contraintes de capacité HDFS.
Important
Notez que le temps nécessaire pour qu'un nœud soit définitivement mis hors service ou résilié peut être sujet à changement.
Bien que le remplacement de nœuds défectueux atténue considérablement les risques de perte de données, il n'élimine pas totalement le risque. Les données HDFS peuvent être définitivement perdues lors du remplacement progressif d'une instance principale défectueuse. Nous vous recommandons de toujours sauvegarder vos données.
Pour plus d'informations sur l'identification des nœuds défectueux et la restauration, consultez la section Erreurs liées aux ressources. En outre, pour découvrir d'autres bonnes pratiques à suivre afin de préserver l'intégrité d'un cluster, consultez la documentation suivante concernant l'erreur de ressource Le cluster Amazon EMR se termine par NO_SLAVE_LEFT et les nœuds principaux FAILED_BY_MASTER.
Amazon EMR publie Amazon CloudWatch Events pour le remplacement de nœuds défectueux, afin que vous puissiez suivre l'évolution de vos instances principales défaillantes. Pour plus d'informations, consultez la section Événements de remplacement de nœuds défectueux.
Paramètres de protection par défaut pour le remplacement et la terminaison des nœuds
Le remplacement de nœuds défectueux est disponible pour toutes les versions d'Amazon EMR, mais les paramètres par défaut dépendent du label de version que vous choisissez. Vous pouvez modifier n'importe lequel de ces paramètres en configurant le remplacement de nœuds défectueux lors de la création d'un nouveau cluster ou en accédant à la configuration du cluster à tout moment.
Si vous créez un cluster à nœud unique ou un cluster à haute disponibilité exécutant Amazon EMR version 7.0 ou antérieure, le paramètre par défaut de remplacement de nœud défectueux dépend de la protection contre la résiliation :
L'activation de la protection de terminaison désactive le remplacement de nœuds défectueux.
La désactivation de la protection de terminaison entraîne le remplacement d'un nœud défectueux.
Configuration du remplacement de nœuds défectueux lorsque vous lancez un cluster
Vous pouvez activer ou désactiver le remplacement de nœuds défectueux lorsque vous lancez un cluster à l'aide de la console, de l' AWS CLI API ou de l'API.
Le paramètre de remplacement des nœuds défectueux par défaut dépend de la manière dont vous lancez le cluster :
-
Console Amazon EMR : le remplacement de nœuds défectueux est activé par défaut.
-
AWS CLI
aws emr create-cluster
— le remplacement de nœuds défectueux est activé par défaut, sauf indication contraire de votre part--no-unhealthy-node-replacement
. -
Commande d'RunJobFlow API Amazon EMR : le remplacement de nœuds défectueux est activé par défaut, sauf si vous définissez la valeur
UnhealthyNodeReplacement
booléenne sur ou.True
False
Configuration du remplacement de nœuds défectueux dans un cluster en cours d'exécution
Vous pouvez activer ou désactiver le remplacement de nœuds défectueux pour un cluster en cours d'exécution à l'aide de la console AWS CLI, de l'API ou de l'API.