Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Résolution des problèmes liés aux indicateurs de santé du
Les métriques de santé du cluster sont ajoutées au tableau de CloudWatch bord AWS ParallelCluster Amazon à partir de AWS ParallelCluster la version 3.6.0. Dans les sections suivantes, vous découvrirez les indicateurs de santé du tableau de bord et les mesures que vous pouvez prendre pour résoudre les problèmes.
Rubriques
Voir le graphique des erreurs de provisionnement des instances
Si vous voyez une valeur différente de zéro dans le Instance Provisioning Errors graphique, cela signifie que l' EC2 instance Amazon de sauvegarde des nœuds slurm n'a pas pu être lancée sur l'CreateFleetAPI or. RunInstance
Voyant IAMPolicyErrors
-
Que s'est-il passé ?
Un certain nombre d'instances n'ont pas pu être lancées, en raison d'autorisations insuffisantes accompagnées d'un code d'erreur
UnauthorizedOperation. -
Comment résoudre le problème ?
Si vous avez configuré un InstanceRoleou personnalisé InstanceProfile, vérifiez vos politiques IAM et vérifiez que vous utilisez les informations d'identification correctes.
Consultez le
clustermgtdfichier pour obtenir des informations détaillées sur les erreurs du nœud statique. Consultez leslurm_resume.logfichier pour obtenir des informations détaillées sur les erreurs de nœud dynamique. Utilisez les informations pour en savoir plus sur les autorisations manquantes qui doivent être ajoutées.
Voyant VcpuLimitErrors
-
Que s'est-il passé ?
AWS ParallelCluster n'a pas réussi à lancer les instances car la limite de vCPU que vous avez fixée Compte AWS pour un type d' EC2 instance Amazon spécifique que vous avez configuré pour les nœuds de calcul en cluster a été atteint.
-
Comment résoudre le problème ?
Vérifiez l'
VcpuLimitExceedederreur dans leclustermgtdfichier pour les nœuds statiques et dans leslurm_resume.logfichier pour les nœuds dynamiques pour obtenir des informations supplémentaires. Pour résoudre ce problème, vous pouvez demander une augmentation des limites de vos vCPU. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les quotas de service Amazon Elastic Compute Cloud dans le guide de l'utilisateur Amazon Elastic Compute Cloud pour les instances Linux.
Voyant VolumeLimitErrors
-
Que s'est-il passé ?
Vous avez atteint la limite de volume Amazon EBS sur votre Compte AWS, et AWS ParallelCluster vous ne parvenez pas à lancer des instances avec un code d'erreur
InsufficientVolumeCapacityouVolumeLimitExceeded. -
Comment résoudre le problème ?
Vérifiez le
clustermgtdfichier pour les nœuds statiques et pour lesslurm_resume.lognœuds dynamiques pour obtenir des informations supplémentaires sur les limites de volume. Pour résoudre ce problème, vous pouvez utiliser un autre volume Région AWS, nettoyer les volumes existants ou contacter le AWS Support Center pour soumettre une demande d'augmentation de votre limite de volume Amazon EBS.
Voyant InsufficientCapacityErrors
-
Que s'est-il passé ?
AWS ParallelCluster ne dispose pas d'une capacité suffisante pour lancer EC2 des instances Amazon sur des nœuds principaux.
-
Comment résoudre le problème ?
Vérifiez le
clustermgtdfichier pour les nœuds statiques et pour les nœuds dynamiques afin d'obtenir des informations détaillées sur les erreurs de capacité insuffisante.slurm_resume.logPour résoudre le problème, suivez les instructions du https://aws.amazon.com/premiumsupport/centre de connaissances/ec2-/. insufficient-capacity-errors
OtherInstanceLaunchFailures
-
Que s'est-il passé ?
L' EC2 instance Amazon de sauvegarde des nœuds de calcul n'a pas pu être lancée avec l'
RunInstanceAPICreateFleetor. -
Comment résoudre le problème ?
Vérifiez le
clustermgtdfichier pour les nœuds statiques et pour lesslurm_resume.lognœuds dynamiques pour obtenir des informations sur les erreurs.
Affichage du graphique des erreurs d'instance non conformes
-
Que s'est-il passé ?
Un certain nombre d'instances de calcul ont été lancées mais ont par la suite été interrompues pour cause de défaillance.
-
Comment résoudre le problème ?
Pour plus d'informations sur la résolution des problèmes liés aux nœuds défectueux, consultezRésolution des problèmes de remplacement et de terminaison inattendus de nœuds.
Voyant InstanceBootstrapTimeoutError
-
Que s'est-il passé ?
Une instance ne peut pas rejoindre le cluster au sein du
resume_timeout(pour les nœuds dynamiques) ounode_replacement_timeout(pour les nœuds statiques). Cela peut se produire si le réseau n'est pas configuré correctement pour les nœuds de calcul, ou si les scripts personnalisés exécutés sur le nœud de calcul mettent trop de temps à se terminer. -
Comment résoudre le problème ?
Pour les nœuds dynamiques, vérifiez dans le
clustermgtdjournal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :Node bootstrap error: Resume timeout expires for nodePour les nœuds statiques, vérifiez dans le
clustermgtdjournal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :Node bootstrap error: Replacement timeout expires for node ... in replacement.Pour plus de détails, vérifiez que le
/var/log/cloud-init-output.logfichier ne contient pas d'erreurs. Vous pouvez récupérer les adresses IP des nœuds de calcul problématiques dans les fichiersslurm_resumejournauxclustermgtdet.
Voyant EC2HealthCheckErrors
-
Que s'est-il passé ?
Le bilan de EC2 santé d'une instance a échoué sur Amazon.
-
Comment résoudre le problème ?
Pour plus d'informations sur la façon de résoudre ce problème, consultez Résoudre les problèmes des instances dont les vérifications d'état ont échoué.
Voyant ScheduledEventHealthCheckErrors
-
Que s'est-il passé ?
Une instance n'a pas pu être vérifiée lors d'un événement EC2 planifié par Amazon, et elle ne fonctionne pas correctement.
-
Comment résoudre le problème ?
Pour plus d'informations sur la manière de résoudre ce problème, consultez la section Événements planifiés pour vos instances.
Voyant NoCorrespondingInstanceErrors
-
Que s'est-il passé ?
AWS ParallelCluster Impossible de trouver les instances qui soutiennent les nœuds. Les nœuds se sont probablement terminés automatiquement lors des opérations d'amorçage. SlurmQueuesDes erreurs de OnNodeConfiguredscript CustomActions//OnNodeStart| ou de réseau peuvent se produire
NoCorrespondingInstanceErrors. -
Comment résoudre le problème ?
Pour plus de détails, consultez
/var/log/cloud-init-output.logle nœud de calcul.
Voir le graphique des temps d'inactivité de la flotte de calcul
Observer un MaxDynamicNodeIdleTime délai nettement supérieur au seuil de réduction du temps d'inactivité
-
Que s'est-il passé ?
Votre instance ne s'arrête pas correctement.
MaxDynamicNodeIdleTimeindique la durée maximale en secondes pendant laquelle un nœud dynamique, soutenu par une EC2 instance Amazon, est inactif. Le seuil de réduction du temps d'inactivité est dérivé du paramètre de configuration ScaledownIdletimedu cluster. Lorsqu'un nœud de calcul est inactif pendant plus de quelques secondes d'inactivité, Slurm met hors tension le nœud et AWS ParallelCluster met fin à l'instance de sauvegarde. Dans ce cas, quelque chose empêche la fermeture de l'instance. -
Comment résoudre le problème ?
Pour plus d'informations sur ce problème, voir Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques dansRésolution des problèmes de dimensionnement.