Una instancia EC2 del AWS PCS se cierra y se reemplaza tras el reinicio - AWS PCS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Una instancia EC2 del AWS PCS se cierra y se reemplaza tras el reinicio

Descripción general del problema

Tras reiniciar una instancia EC2 de un grupo de nodos de procesamiento, AWS PCS finaliza y reemplaza automáticamente la instancia.

¿Por qué sucede esto

AWS PCS no admite el rearranque de instancias. Si se reinicia una instancia EC2, AWS PCS considera que la instancia está en mal estado y la reemplaza. Si AWS PCS termina y reemplaza las instancias de forma continua, puede deberse a que algo las reinicia después del lanzamiento. Algunos ejemplos incluyen el reinicio automático de la instancia EC2 (por ejemplo, un reinicio automático después de aplicar los parches), la automatización externa a la instancia EC2 (como una aplicación de administración de redes), otro AWS servicio (por ejemplo) o el reinicio manual AWS Systems Manager realizado por una persona.

Solución

Puede comprobar sus slurmd registros slurmctld o registros para comprobar si la instancia se ha reiniciado. Para obtener más información, consulte El planificador inicia sesión en AWS PCS y Supervisión de instancias de AWS PCS mediante Amazon CloudWatch. El siguiente ejemplo de entrada de slurmctld registro indica que la instancia se reinició:

ejemplo
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
Se está reiniciando debido a un parche

A menudo es necesario reiniciar el equipo después de aplicar los parches. No aplique los parches directamente a una instancia EC2 que forme parte de un grupo de nodos de cómputo de AWS PCS. Si debe aplicar parches a las instancias EC2, debe aplicar los parches a una Amazon Machine Image (AMI) actualizada y actualizar los grupos de nodos de cómputo para usar la AMI actualizada. Las nuevas instancias EC2 que AWS PCS lance para esos grupos de nodos de cómputo utilizarán la AMI actualizada (parcheada). Para obtener más información, consulte Imágenes personalizadas de Amazon Machine (AMIs) para AWS PCS.