Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Résolution des problèmes de redémarrage de Slurm sur PCS AWS
Lorsque vous rencontrez des problèmes de redémarrage d'un nœud, vérifiez d'abord l'état du nœud à l'aide descontrol
show node . Examinez ensuite les CloudWatch journaux de Slurm (slurmctld et slurmd) et les journaux du système afin d'identifier les erreurs potentielles.nodename
Pour le dépannage de base, vérifiez la connectivité réseau, vérifiez les paramètres du groupe de sécurité et assurez-vous que tous les services requis fonctionnent après le redémarrage. Si les problèmes persistent après les étapes de dépannage de base, contactez AWS le Support. Lorsque vous contactez le support, fournissez des extraits de journal pertinents, des informations sur l'état du nœud et une chronologie de la tentative de redémarrage afin d'accélérer le processus de résolution.
Ressources supplémentaires
-
Pour surveiller les instances AWS PCS à l'aide d'Amazon CloudWatch, consultez la section Surveillance des instances AWS PCS à l'aide d'Amazon CloudWatch.
-
Pour un dépannage général, voirRésolution des problèmes dans le service de calcul AWS parallèle.
-
Pour la documentation de Slurm, consultez le guide de résolution des problèmes de Slurm
.