View a markdown version of this page

Une instance EC2 dans AWS PCS est arrêtée et remplacée après le redémarrage - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Une instance EC2 dans AWS PCS est arrêtée et remplacée après le redémarrage

Vue d'ensemble du problème

Après le redémarrage d'une instance EC2 d'un groupe de nœuds de calcul, AWS PCS met automatiquement fin à l'instance et la remplace.

Pourquoi cela se produit

AWS PCS ne prend pas en charge les redémarrages d'instances. Si une instance EC2 est redémarrée, AWS PCS considère que l'instance est défectueuse et la remplace. Si AWS PCS arrête et remplace continuellement vos instances, cela peut être dû au fait que quelque chose redémarre vos instances après leur lancement. Parmi les exemples, citons les redémarrages automatisés sur l'instance EC2 (par exemple, un redémarrage automatique après l'application de correctifs), l'automatisation externe à l'instance EC2 (telle qu'une application de gestion réseau), un autre AWS service (tel que AWS Systems Manager) ou un redémarrage manuel effectué par une personne.

Que faire

Vous pouvez consulter vos slurmd journaux slurmctld ou vos journaux pour voir si votre instance a été redémarrée. Pour plus d’informations, consultez Le planificateur se connecte à PCS AWS et Surveillance des instances AWS PCS à l'aide d'Amazon CloudWatch. L'exemple d'entrée de slurmctld journal suivant indique que l'instance a redémarré :

Exemple
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
Redémarrage à cause de l'application de correctifs

Un redémarrage est souvent nécessaire après l'application des correctifs. N'appliquez pas de correctifs directement à une instance EC2 faisant partie d'un groupe de nœuds de calcul AWS PCS. Si vous devez appliquer des correctifs à vos instances EC2, vous devez appliquer vos correctifs à une Amazon Machine Image (AMI) mise à jour et mettre à jour vos groupes de nœuds de calcul pour utiliser l'AMI mise à jour. Les nouvelles instances EC2 lancées par AWS PCS pour ces groupes de nœuds de calcul utiliseront l'AMI mise à jour (patchée). Pour de plus amples informations, veuillez consulter Images Amazon Machine personnalisées (AMIs) pour AWS PC.