Questions fréquemment posées sur le redémarrage de Slurm dans AWS PIÈCES

Trouvez les réponses aux questions les plus fréquemment posées sur l'utilisation de Slurm reboot sur PCS. AWS

Qu'est-ce que le support de redémarrage de Slurm ?

Support de la commande native Slurm. scontrol reboot Utilisez cette commande pour redémarrer les nœuds de calcul sans remplacement automatique des instances, afin de préserver la capacité des instances EC2 et de réduire les coûts opérationnels.

Qui peut utiliser les commandes de redémarrage de Slurm ?

Seuls les utilisateurs Slurm Admin (utilisateurs root) peuvent exécuter des commandes de redémarrage. Les utilisateurs réguliers qui tentent de l'utiliser scontrol reboot recevront une erreur de refus d'autorisation de la part de Slurm sans que cela n'affecte le nœud.

Qu'arrive-t-il à l'exécution de tâches lors d'un redémarrage ?

Par défaut, les tâches se terminent normalement avant le redémarrage. Avec l'option ASAP, le nœud est vidé pour empêcher de nouvelles tâches, et le redémarrage a lieu une fois les tâches en cours terminées. Les tâches peuvent être annulées ou mises en attente pour un redémarrage immédiat.

En quoi est-ce différent du redémarrage de la console EC2 ?

Le redémarrage lent préserve l'instance EC2 et évite son remplacement, tandis que le redémarrage de la console EC2 incite PCS à remplacer l'instance en raison de l'échec des contrôles de santé effectués lors du processus de redémarrage.

Puis-je configurer des scripts de redémarrage personnalisés ?

Non, RebootProgram la configuration n'est pas prise en charge dans la version initiale. Cette fonctionnalité utilise le comportement de redémarrage standard de Slurm sans prise en charge de scripts personnalisés.

Combien de temps dure un redémarrage de Slurm ?

Le temps de redémarrage varie en fonction du type d'instance, des processus de démarrage du client, de la configuration de l'AMI et de la nécessité ou non de terminer les tâches en premier. Le processus inclut l'attente de la fin des tâches, le redémarrage physique, les vérifications de santé et l'enregistrement du daemon slurmd.

Puis-je consulter l'historique des redémarrages ?

Les événements de redémarrage sont enregistrés dans les journaux de Slurm (slurmctld et slurmd) qui peuvent être surveillés par le biais de ce journal. CloudWatch Le champ Motif dans l'état du nœud indique le motif du redémarrage au cours du processus.

Que faire si un nœud est bloqué pendant le redémarrage ?

Si un nœud ne termine pas le processus de redémarrage qu'il ResumeTimeout contient, il sera marqué comme ÉTANT HORS SERVICE. Vérifiez la présence d'erreurs dans les CloudWatch journaux, vérifiez la connectivité réseau et examinez les journaux slurmd. Contactez AWS le Support si les problèmes persistent.

Puis-je redémarrer plusieurs nœuds à la fois ?

Oui, vous pouvez spécifier plusieurs nœuds dans la commande de redémarrage :


scontrol reboot ASAP node1,node2,node3

Comment puis-je redémarrer un nœud sans attendre la fin des tâches ?

Pour un redémarrage immédiat des nœuds en cas de problèmes tels que des nœuds problématiques affectant des tâches multi-nœuds, une dégradation significative des performances ou un comportement instable du GPU, deux options s'offrent à vous :

Annuler et redémarrer — Tout d'abord, annulez les tâches concernées en utilisantscancel <job_id>, puis lancez un redémarrage immédiat en utilisantscontrol reboot ASAP <nodename>. Les tâches en cours seront interrompues et devront être soumises à nouveau une fois le nœud rétabli.
Vidange et mise en file d'attente (moins d'impact) : commencez par lancer une vidange et redémarrez avecscontrol reboot ASAP <nodename>, puis mettez en file d'attente les tâches concernées en utilisant. scontrol requeue <job_id> Cela permet de remettre les emplois en attente au lieu de les annuler.

Que se passe-t-il si je spécifie NextState=DOWN ?

Si vous le spécifieznextstate=DOWN, le nœud sera marqué comme défectueux après le redémarrage et déclenchera le remplacement de l'instance. Pour éviter le remplacement d'instance, ne spécifiez pas nextstate ou usenextstate=RESUME.

Ressources supplémentaires

Pour les procédures de redémarrage de base, voirRedémarrer un nœud de calcul à l'aide de Slurm dans AWS PIÈCES.
Pour résoudre les problèmes de redémarrage, voirRésolution des problèmes de redémarrage de Slurm dans AWS PIÈCES.
Pour la documentation sur le redémarrage de Slurm, consultez la documentation de Slurm scontrol.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Annuler le redémarrage

Résolution des problèmes