Voir le graphique des erreurs de provisionnement des instances Affichage du graphique des erreurs d'instance non conformes Voir le graphique des temps d'inactivité de la flotte de calcul

Résolution des problèmes liés aux indicateurs de santé du

Les métriques de santé du cluster sont ajoutées au tableau de CloudWatch bord AWS ParallelCluster Amazon à partir de AWS ParallelCluster la version 3.6.0. Dans les sections suivantes, vous découvrirez les indicateurs de santé du tableau de bord et les mesures que vous pouvez prendre pour résoudre les problèmes.

Rubriques

Voir le graphique des erreurs de provisionnement des instances
Affichage du graphique des erreurs d'instance non conformes
Voir le graphique des temps d'inactivité de la flotte de calcul

Voir le graphique des erreurs de provisionnement des instances

Si vous voyez une valeur différente de zéro dans le Instance Provisioning Errors graphique, cela signifie que l' EC2 instance Amazon de sauvegarde des nœuds slurm n'a pas pu être lancée sur l'CreateFleetAPI or. RunInstance

Voyant `IAMPolicyErrors`

Que s'est-il passé ?

Un certain nombre d'instances n'ont pas pu être lancées, en raison d'autorisations insuffisantes accompagnées d'un code d'erreurUnauthorizedOperation.
Comment résoudre le problème ?

Si vous avez configuré un InstanceRoleou personnalisé InstanceProfile, vérifiez vos politiques IAM et vérifiez que vous utilisez les informations d'identification correctes.

Consultez le clustermgtd fichier pour obtenir des informations détaillées sur les erreurs du nœud statique. Consultez le slurm_resume.log fichier pour obtenir des informations détaillées sur les erreurs de nœud dynamique. Utilisez les informations pour en savoir plus sur les autorisations manquantes qui doivent être ajoutées.

Voyant `VcpuLimitErrors`

Que s'est-il passé ?

AWS ParallelCluster n'a pas réussi à lancer les instances car la limite de vCPU que vous avez fixée Compte AWS pour un type d' EC2 instance Amazon spécifique que vous avez configuré pour les nœuds de calcul en cluster a été atteint.
Comment résoudre le problème ?

Vérifiez l'VcpuLimitExceedederreur dans le clustermgtd fichier pour les nœuds statiques et dans le slurm_resume.log fichier pour les nœuds dynamiques pour obtenir des informations supplémentaires. Pour résoudre ce problème, vous pouvez demander une augmentation des limites de vos vCPU. Pour plus d'informations sur la façon de consulter les limites actuelles et de demander de nouvelles limites, consultez les quotas de service Amazon Elastic Compute Cloud dans le guide de l'utilisateur Amazon Elastic Compute Cloud pour les instances Linux.

Voyant `VolumeLimitErrors`

Que s'est-il passé ?

Vous avez atteint la limite de volume Amazon EBS sur votre Compte AWS, et AWS ParallelCluster vous ne parvenez pas à lancer des instances avec un code d'erreur InsufficientVolumeCapacity ouVolumeLimitExceeded.
Comment résoudre le problème ?

Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les slurm_resume.log nœuds dynamiques pour obtenir des informations supplémentaires sur les limites de volume. Pour résoudre ce problème, vous pouvez utiliser un autre volume Région AWS, nettoyer les volumes existants ou contacter le AWS Support Center pour soumettre une demande d'augmentation de votre limite de volume Amazon EBS.

Voyant `InsufficientCapacityErrors`

Que s'est-il passé ?

AWS ParallelCluster ne dispose pas d'une capacité suffisante pour lancer EC2 des instances Amazon sur des nœuds principaux.
Comment résoudre le problème ?

Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les nœuds dynamiques afin d'obtenir des informations détaillées sur les erreurs de capacité insuffisante. slurm_resume.log Pour résoudre le problème, suivez les instructions du https://aws.amazon.com/premiumsupport/centre de connaissances/ec2-/. insufficient-capacity-errors

`OtherInstanceLaunchFailures`

Que s'est-il passé ?

L' EC2 instance Amazon de sauvegarde des nœuds de calcul n'a pas pu être lancée avec l'RunInstanceAPI CreateFleet or.
Comment résoudre le problème ?

Vérifiez le clustermgtd fichier pour les nœuds statiques et pour les slurm_resume.log nœuds dynamiques pour obtenir des informations sur les erreurs.

Affichage du graphique des erreurs d'instance non conformes

Que s'est-il passé ?

Un certain nombre d'instances de calcul ont été lancées mais ont par la suite été interrompues pour cause de défaillance.
Comment résoudre le problème ?

Pour plus d'informations sur la résolution des problèmes liés aux nœuds défectueux, consultezRésolution des problèmes de remplacement et de terminaison inattendus de nœuds.

Voyant `InstanceBootstrapTimeoutError`

Que s'est-il passé ?

Une instance ne peut pas rejoindre le cluster au sein du resume_timeout (pour les nœuds dynamiques) ou node_replacement_timeout (pour les nœuds statiques). Cela peut se produire si le réseau n'est pas configuré correctement pour les nœuds de calcul, ou si les scripts personnalisés exécutés sur le nœud de calcul mettent trop de temps à se terminer.
Comment résoudre le problème ?

Pour les nœuds dynamiques, vérifiez dans le clustermgtd journal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :
```
Node bootstrap error: Resume timeout expires for node
```
Pour les nœuds statiques, vérifiez dans le clustermgtd journal (/var/log/parallelcluster/clustermgtd) l'adresse IP du nœud de calcul et les erreurs telles que les suivantes :
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
Pour plus de détails, vérifiez que le /var/log/cloud-init-output.log fichier ne contient pas d'erreurs. Vous pouvez récupérer les adresses IP des nœuds de calcul problématiques dans les fichiers slurm_resume journaux clustermgtd et.

Voyant `EC2HealthCheckErrors`

Que s'est-il passé ?

Le bilan de EC2 santé d'une instance a échoué sur Amazon.
Comment résoudre le problème ?

Pour plus d'informations sur la façon de résoudre ce problème, consultez Résoudre les problèmes des instances dont les vérifications d'état ont échoué.

Voyant `ScheduledEventHealthCheckErrors`

Que s'est-il passé ?

Une instance n'a pas pu être vérifiée lors d'un événement EC2 planifié par Amazon, et elle ne fonctionne pas correctement.
Comment résoudre le problème ?

Pour plus d'informations sur la manière de résoudre ce problème, consultez la section Événements planifiés pour vos instances.

Voyant `NoCorrespondingInstanceErrors`

Que s'est-il passé ?

AWS ParallelCluster Impossible de trouver les instances qui soutiennent les nœuds. Les nœuds se sont probablement terminés automatiquement lors des opérations d'amorçage. SlurmQueuesDes erreurs de OnNodeConfiguredscript CustomActions//OnNodeStart| ou de réseau peuvent se produireNoCorrespondingInstanceErrors.
Comment résoudre le problème ?

Pour plus de détails, consultez /var/log/cloud-init-output.log le nœud de calcul.

Voir le graphique des temps d'inactivité de la flotte de calcul

Observer un `MaxDynamicNodeIdleTime` délai nettement supérieur au seuil de réduction du temps d'inactivité

Que s'est-il passé ?

Votre instance ne s'arrête pas correctement. MaxDynamicNodeIdleTimeindique la durée maximale en secondes pendant laquelle un nœud dynamique, soutenu par une EC2 instance Amazon, est inactif. Le seuil de réduction du temps d'inactivité est dérivé du paramètre de configuration ScaledownIdletimedu cluster. Lorsqu'un nœud de calcul est inactif pendant plus de quelques secondes, Scaledown met le nœud hors Slurm tension et AWS ParallelCluster met fin à l'instance de sauvegarde. Dans ce cas, quelque chose empêche la fermeture de l'instance.
Comment résoudre le problème ?

Pour plus d'informations sur ce problème, voir Remplacement, arrêt ou mise hors tension des instances et des nœuds problématiques dansRésolution des problèmes de dimensionnement.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Aucun des scénarios précédents ne s'applique à ma situation

Résolution des problèmes de déploiement de clusters

Résolution des problèmes liés aux indicateurs de santé du

Rubriques

Voir le graphique des erreurs de provisionnement des instances

Voyant IAMPolicyErrors

Voyant VcpuLimitErrors

Voyant VolumeLimitErrors

Voyant InsufficientCapacityErrors

OtherInstanceLaunchFailures