Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Redémarrage de nœuds de calcul avec Slurm sur PCS AWS
AWS PCS prend en charge la commande native scontrol reboot de Slurm. Utilisez cette commande pour redémarrer les nœuds de calcul sans remplacer l'instance EC2. D'autres méthodes de redémarrage (console Amazon EC2 AWS CLI, correctifs automatisés ou maintenance du système) amènent les AWS PC à considérer que l'instance EC2 est défectueuse et à la remplacer.
Avantages du redémarrage de Slurm
Le redémarrage de Slurm présente plusieurs avantages pour la maintenance des clusters :
-
Préservez la capacité : évitez de perdre des instances EC2 dont la capacité est limitée au profit d'autres clients.
-
Réduisez les coûts : éliminez les cycles de remplacement d'instances inutiles et la facturation continue pour les nœuds inactifs.
-
Restauration plus rapide : aucun retard de provisionnement par rapport au remplacement d'une instance.
-
Flexibilité opérationnelle — Éliminez les fuites de mémoire, supprimez les fichiers temporaires et restaurez les nœuds en état de dégradation.
Quand utiliser le redémarrage de Slurm
Utilisez Slurm reboot pour les scénarios de maintenance opérationnelle courants :
-
Dépannage — Résolvez les problèmes de performances ou les processus qui ne répondent pas, en particulier pour les nœuds GPU.
-
Nettoyage des ressources : éliminez les fuites de mémoire, les fichiers temporaires ou les
/tmpprocessus bloqués qui affectent les performances au travail. -
Restauration : restaurez les nœuds à l'état bloqué ou dégradé avant de demander leur remplacement complet.
Limitations
-
Seuls les utilisateurs Slurm Admin (utilisateurs root) peuvent exécuter des commandes de redémarrage.
-
Le support de redémarrage est
scontrol rebootlimité à. -
RebootProgram la configuration n'est pas prise en charge.
-
Aucune interface de console, ligne de commande uniquement.