Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Redémarrer un nœud de calcul à l'aide de Slurm dans PCS AWS
Utilisez la commande de redémarrage native de Slurm pour résoudre les problèmes de performances, résoudre les problèmes de ressources ou récupérer après un état dégradé sans perte de capacité de l'instance EC2.
Conditions préalables
-
Privilèges d'administrateur Slurm (accès utilisateur root)
-
Accès à un nœud de connexion dans le cluster AWS PCS
Procédure
-
Connectez-vous à un nœud de connexion via la console EC2.
-
Dans la console EC2, choisissez Instances.
-
Sélectionnez votre instance de nœud de connexion.
-
Choisissez Se connecter.
-
-
Identifiez le nom du nœud de calcul cible à l'aide de
sinfoouscontrol show node.sinfo # or scontrol show node -
Exécutez la commande de redémarrage à l'aide de l'une des options suivantes :
Avertissement
Ne l'utilisez pas
nextstate=DOWNavec lascontrol rebootcommande. Ce paramètre indique que le nœud est défectueux et déclenche le remplacement de l'instance.-
Redémarrage de base (attend que le nœud soit inactif) :
scontrol rebootnodename -
Redémarrage immédiat (vide le nœud et redémarre une fois les tâches terminées) :
scontrol reboot ASAPnodename -
Redémarrez avec raison :
scontrol reboot ASAP reason="troubleshooting"nodename -
Redémarrez avec l'état de reprise :
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Surveillez la progression du redémarrage à l'aide de
scontrol show node.scontrol show nodenodename -
Vérifiez que le nœud est remis en service une fois le redémarrage terminé.