View a markdown version of this page

Résolution des problèmes de redémarrage de Slurm sur PCS AWS - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes de redémarrage de Slurm sur PCS AWS

Lorsque vous rencontrez des problèmes de redémarrage d'un nœud, vérifiez d'abord l'état du nœud à l'aide descontrol show node nodename. Examinez ensuite les CloudWatch journaux de Slurm (slurmctld et slurmd) et les journaux du système afin d'identifier les erreurs potentielles.

Pour le dépannage de base, vérifiez la connectivité réseau, vérifiez les paramètres du groupe de sécurité et assurez-vous que tous les services requis fonctionnent après le redémarrage. Si les problèmes persistent après les étapes de dépannage de base, contactez AWS le Support. Lorsque vous contactez le support, fournissez des extraits de journal pertinents, des informations sur l'état du nœud et une chronologie de la tentative de redémarrage afin d'accélérer le processus de résolution.

Ressources supplémentaires