Redémarrer un nœud de calcul à l'aide de Slurm dans PCS AWS - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Redémarrer un nœud de calcul à l'aide de Slurm dans PCS AWS

Utilisez la commande de redémarrage native de Slurm pour résoudre les problèmes de performances, résoudre les problèmes de ressources ou récupérer après un état dégradé sans perte de capacité de l'instance EC2.

Conditions préalables

  • Privilèges d'administrateur Slurm (accès utilisateur root)

  • Accès à un nœud de connexion dans le cluster AWS PCS

Procédure

  1. Connectez-vous à un nœud de connexion via la console EC2.

    1. Dans la console EC2, choisissez Instances.

    2. Sélectionnez votre instance de nœud de connexion.

    3. Choisissez Se connecter.

  2. Identifiez le nom du nœud de calcul cible à l'aide de sinfo ouscontrol show node.

    sinfo # or scontrol show node
  3. Exécutez la commande de redémarrage à l'aide de l'une des options suivantes :

    Avertissement

    Ne l'utilisez pas nextstate=DOWN avec la scontrol reboot commande. Ce paramètre indique que le nœud est défectueux et déclenche le remplacement de l'instance.

    • Redémarrage de base (attend que le nœud soit inactif) :

      scontrol reboot nodename
    • Redémarrage immédiat (vide le nœud et redémarre une fois les tâches terminées) :

      scontrol reboot ASAP nodename
    • Redémarrez avec raison :

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Redémarrez avec l'état de reprise :

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Surveillez la progression du redémarrage à l'aide descontrol show node.

    scontrol show node nodename
  5. Vérifiez que le nœud est remis en service une fois le redémarrage terminé.