Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Lanzamiento de instancias con bloques de capacidad (CB)
AWS ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad (CB) para Machine Learning. A diferencia de las ODCR, los bloques de capacidad pueden tener una hora de inicio en el futuro y tienen una duración finita en el tiempo. Para obtener más información sobre el lanzamiento con ODCR, consulte Inicio de instancias con reservas de capacidad bajo demanda (ODCR).
Uso de CB con AWS ParallelCluster
Para configurar sus clústeres nuevos o existentes para que usen un CB, primero debe tener un CB válido en su AWS cuenta. Puedes usar el Consola de administración de AWS AWS Command Line Interface, o el SDK para buscar y comprar un CB disponible siguiendo la documentación oficial. Una vez que tenga un CB válido, podrá establecer el nombre de Amazon Resource Name (ARN) del CB y los parámetros relacionados en su archivo de AWS ParallelCluster configuración. Para obtener más información, consulte Búsqueda y compra de bloques de capacidad (CB)
CB en la configuración del clúster
Para usar un CB para una cola específica, debe usar el CapacityReservationId parámetro. Configúrelo en un ID de CB existente. Puede obtener el ARN del CB del Consola de administración de AWS AWS CLI, o del SDK que utilizó para crear el CB.
Debe configurar CapacityType = CAPACITY_BLOCK la cola en la que quiere usar el CB. Configúrelo en el recurso InstanceType de cómputo (igual que el tipo de instancia de Amazon Elastic Compute Cloud del CB).
Si lo especificas CapacityReservationId a nivel de recurso de cómputo, InstanceType es opcional porque se recuperará automáticamente de la reserva.
Cuando se usaCapacityType = CAPACITY_BLOCK, MaxCount debe ser igual MinCount y superior a 0, ya que todas las instancias que forman parte de la reserva de CB se administran como nodos estáticos.
En el momento de la creación del clúster, el nodo principal espera a que todos los nodos estáticos estén listos para indicar que la creación del clúster se ha realizado correctamente. Sin embargo, cuando lo utilicesCapacityType = CAPACITY_BLOCK, los nodos que forman parte de los recursos informáticos asociados no se tendrán en cuenta para esta comprobación. El clúster se creará incluso si todos los elementos configurados no están activos.
El siguiente fragmento del archivo de configuración muestra los parámetros necesarios para habilitarlos en el archivo de AWS ParallelCluster configuración.
SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)
¿Cómo se AWS ParallelCluster utilizan los bloques de capacidad (CB)
AWS ParallelCluster gestiona los nodos estáticos asociados a ellos de una forma peculiar. AWS ParallelCluster crea un clúster incluso si el CB aún no está activo, y las instancias se lanzan automáticamente una vez que el CB está activo.
Los Slurm nodos que corresponden a los recursos informáticos, están asociados y aún no están activos se mantienen en mantenimiento hasta que llegan a la hora de inicio del CB. Slurmlos nodos permanecen en un reservation/maintenance estado y están asociados al usuario administrador de slurm. Esto significa que pueden aceptar trabajos, pero los trabajos permanecerán pending hasta que se elimine la reserva.
AWS ParallelCluster actualiza automáticamente las Slurm reservas y pone los nodos CB relacionados en estado de mantenimiento (correspondiente al estado CB). Cuando el CB está activo, la Slurm reserva se elimina y los nodos se inician y quedan disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.
Cuando se alcance la hora de finalización del CB, los nodos volverán a su reservation/maintenance estado. Cuando el CB deje de estar activo y se cancelen resubmit/requeue las instancias, los usuarios deberán asignar los trabajos a una nueva cola o recurso informático.