Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de Amazon EC2 Capacity Blocks para aprendizaje automático con AWS PCS
Amazon EC2 Capacity Blocks for ML es una opción de EC2 compra de Amazon que le permite pagar por adelantado para reservar instancias de computación acelerada basadas en GPU dentro de un intervalo de fechas y horas específico para soportar cargas de trabajo de corta duración. Las instancias que se ejecutan dentro de un bloque de capacidad se colocan automáticamente juntas dentro de Amazon EC2 UltraClusters, para una red de baja latencia, escala de petabits y sin bloqueos. Para obtener más información, consulte Capacity Blocks for ML en la Guía del usuario de Amazon Elastic Compute Cloud.
Puede usar una plantilla de lanzamiento para que AWS PCS utilice un bloque de capacidad cuando lance instancias para un grupo de nodos de cómputo.
nota
AWS PCS solo admite bloques de capacidad con la versión 24.05 o posterior de Slurm.
Limitaciones
-
AWS PCS solo admite bloques de capacidad con las familias de instancias P5en, P5e, P5 y P4d.
-
Solo puede asociar un grupo de nodos de cómputo a un bloque de capacidad a la vez.
-
No puede asociar un grupo de nodos de cómputo a un grupo de reserva de capacidad que combine varios bloques de capacidad.
-
Los bloques de capacidad deben estar en un
activeestadoscheduledo estado para poder usarse con AWS PCS. No puedes usar bloques de capacidad en otros estados, comopayment-failed. Para obtener más información, consulte Ver bloques de capacidad en la Guía del usuario de Amazon Elastic Compute Cloud.
Caducidad del bloque de capacidad
Los bloques de capacidad están limitados a un intervalo de fecha y hora específicos. Cuando caduca un bloque de capacidad:
-
El grupo de nodos de cómputo asociado a ese bloque de capacidad sigue existiendo y sigue asociado a las mismas colas.
-
Todas las instancias del grupo de nodos de cómputo están cerradas y es posible que los trabajos activos fallen, según la configuración de Slurm.
-
AWS PCS no puede lanzar nuevas instancias en el grupo de nodos de cómputo.
-
Todos los trabajos en cola o recién enviados permanecen pendientes hasta que se adjunte otro grupo de nodos de cómputo a la cola o hasta que se actualice el grupo de nodos de cómputo para usar una nueva plantilla de lanzamiento que especifique un nuevo bloque de capacidad.