bloques de capacidad para ML - Amazon Elastic Compute Cloud

bloques de capacidad para ML

Los bloques de capacidad para ML permiten reservar instancias de computación acelerada en una fecha futura para respaldar cargas de trabajo de machine learning (ML) de corta duración. Las instancias que se ejecutan en un bloque de capacidad se colocan automáticamente cerca dentro de Amazon EC2 UltraClusters para conseguir redes que no generen bloqueos, de escala de petabits y de baja latencia.

También puede usar bloques de capacidad para reservar capacidad para UltraServers de Amazon EC2. Los UltraServers conectan varias instancias de Amazon EC2 dentro de una interconexión aceleradora de baja latencia y un elevado ancho de banda. Puede utilizar UltraServers para gestionar las cargas de trabajo de IA y ML que consumen más recursos de computación y memoria en entrenamiento, afinación e inferencia. Para obtener más información, consulte UltraServers de Amazon EC2.

Con bloques de capacidad, puede ver cuándo estará disponible la capacidad de las instancias de GPU en fechas futuras y programar un bloque de capacidad para que comience a la hora que mejor le convenga. Cuando reserva un bloque de capacidad, obtiene una garantía de capacidad predecible para las instancias de GPU y paga solo por el tiempo que necesite. Recomendamos bloques de capacidad si necesita GPU para respaldar sus cargas de trabajo de ML durante días o semanas y no quiere pagar una reserva mientras las instancias de GPU no estén en uso.

A continuación, se indican algunos casos de uso frecuentes de bloques de capacidad.

  • Entrenamiento y ajuste de modelos de ML: obtenga acceso ininterrumpido a las instancias de GPU que reservó para completar el entrenamiento y el ajuste de los modelos de ML.

  • Experimentos y prototipos de ML: ejecute experimentos y cree prototipos que requieran instancias de GPU durante periodos cortos.

Los bloques de capacidad están disponibles para determinados tipos de instancias en algunas regiones de AWS. Para obtener más información, consulte Tipos de instancias y regiones admitidos..

Puede reservar un bloque de capacidad con una hora de inicio de reserva de hasta ocho semanas en el futuro. Cada bloque de capacidad puede tener hasta 64 instancias, y se pueden tener hasta 256 instancias en todos los bloques de capacidad.

Tipos de instancias y regiones admitidos.

Los bloques de capacidad de instancia UltraServer se pueden usar con los siguientes tipos de instancias y regiones de AWS.

nota

No todos los tipos de instancias de todas las Regiones de AWS admiten tamaños de bloques de capacidad de 64 instancias.

Bloques de capacidad de instancia

  • p6-b300.48xlarge

    • Oeste de EE. UU. (Oregón) — us-west-2

  • p6-b200.48xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Oregón) — us-west-2

  • p5.4xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Oregón) — us-west-2

    • Europa (Londres): eu-west-2

    • Asia-Pacífico (Mumbai): ap-south-1

    • Asia-Pacífico (Tokio): ap-northeast-1

    • Asia-Pacífico (Sídney): ap-southeast-2

    • América del Sur (São Paulo): sa-east-1

  • p5.48xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Norte de California): us-west-1

    • Oeste de EE. UU. (Oregón) — us-west-2

    • Europa (Estocolmo): eu-north-1

    • Europa (Londres): eu-west-2

    • América del Sur (São Paulo): sa-east-1

    • Asia-Pacífico (Tokio): ap-northeast-1

    • Asia-Pacífico (Mumbai): ap-south-1

    • Asia-Pacífico (Sídney): ap-southeast-2

    • Asia-Pacífico (Yakarta): ap-southeast-3

  • p5e.48xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Norte de California): us-west-1

    • Oeste de EE. UU. (Oregón) — us-west-2

    • Europa (Estocolmo): eu-north-1

    • Europa (Londres): eu-west-2

    • Europa (España): eu-south-2

    • América del Sur (São Paulo): sa-east-1

    • Asia-Pacífico (Tokio): ap-northeast-1

    • Asia-Pacífico (Seúl): ap-northeast-2

    • Asia-Pacífico (Mumbai): ap-south-1

    • Asia-Pacífico (Yakarta): ap-southeast-3

  • p4d.24xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Oregón) — us-west-2

  • p4de.24xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Oeste de EE. UU. (Oregón) — us-west-2

  • trn1.32xlarge

    • Este de EE. UU. (Norte de Virginia) — us-east-1

    • Este de EE. UU. (Ohio): us-east-2

    • Oeste de EE. UU. (Norte de California): us-west-1

    • Oeste de EE. UU. (Oregón) — us-west-2

    • Europa (Estocolmo): eu-north-1

    • Asia-Pacífico (Mumbai): ap-south-1

    • Asia-Pacífico (Sídney): ap-southeast-2

    • Asia-Pacífico (Melbourne): ap-southeast-4

  • trn2.3xlarge

    • Asia-Pacífico (Melbourne): ap-southeast-4

    • América del Sur (São Paulo): sa-east-1

  • trn2.48xlarge

    • Este de EE. UU. (Ohio): us-east-2

Bloques de capacidad de UltraServer

  • Trn2

    • Este de EE. UU. (Ohio): us-east-2

  • P6e-GB200

    • Zona local de Dallas (Norte de Virginia) — us-east-1-dfw-2a

Plataformas admitidas

Los bloques de capacidad para ML admiten actualmente instancias y UltraServers con solo una tenencia predeterminada. Cuando se utiliza Consola de administración de AWS para comprar un bloque de capacidad, la opción de plataforma predeterminada es Linux/UNIX. Al usar la AWS Command Line Interface (AWS CLI) o el SDK de AWS al comprar un bloque de capacidad, están disponibles las siguientes opciones de plataforma:

  • Linux/Unix

  • Red Hat Enterprise Linux

  • RHEL con HA

  • SUSE Linux

  • Ubuntu Pro

Consideraciones

Antes de usar los bloques de capacidad, tenga en cuenta los siguientes detalles y limitaciones.

  • Si detectamos un deterioro que afecta a un bloque de capacidad de UltraServer, se lo notificaremos; sin embargo, por lo general, no tomaremos medidas para terminar las instancias ubicadas en el bloque de capacidad. Esto tiene como objetivo minimizar interrupciones no intencionadas en las cargas de trabajo. Puede seguir con el uso del bloque de capacidad de UltraServer tal como está después de recibir esta notificación, o solicitar una solución mediante la terminación de todas las instancias del bloque de capacidad y el envío de un caso al soporte de AWS. Una vez que recibamos su solicitud de soporte, le notificaremos al completar la reparación y podrá lanzar nuevamente las instancias en el bloque de capacidad de UltraServer.

  • En el caso de los bloques de capacidad de UltraServer P6e-GB200, debe terminar sus instancias al menos 60 minutos antes de la hora de finalización del bloque de capacidad.

  • Para usar los bloques de capacidad de UltraServer P6e-GB200, debe optar por la zona local de Dallas (Norte de Virginia).

  • Cada bloque de capacidad puede tener hasta 64 instancias, y se pueden tener hasta 256 instancias en todos los bloques de capacidad.

  • Puede describir ofertas de bloques de capacidad que se inicien en tan solo 30 minutos.

  • Los bloques de capacidad finalizan a las 11:30 h UTC (horario universal coordinado).

  • El proceso de terminación de las instancias que se ejecutan en un bloque de capacidad comienza a las 11:00 h UTC (horario universal coordinado) el último día de la reserva.

  • Los bloques de capacidad se pueden reservar con una hora de inicio con hasta 8 semanas de antelación.

  • No se admiten cancelaciones de los bloques de capacidad.

  • Los bloques de capacidad de UltraServer no se pueden compartir entre cuentas de AWS ni dentro de su organización de AWS.

  • El bloque de capacidad no se puede trasladar ni dividir.

  • Solo los bloques de capacidad de UltraServer pueden utilizarse con grupos de recursos. Los bloques de capacidad de instancia no se pueden utilizar con grupos de recursos. Para obtener más información, consulte Creación de un grupo de recursos para los bloques de capacidad de UltraServer.

  • El número total de instancias que se pueden reservar en bloques de capacidad en todas las cuentas de su organización de AWS no puede superar las 256 instancias en una fecha determinada.

  • Para usar un bloque de capacidad, las instancias deben dirigirse específicamente al ID de reserva.

  • Las instancias de un bloque de capacidad no se tienen en cuenta para los límites de instancias bajo demanda.

  • En el caso de las instancias P5 que utilizan una AMI personalizada, asegúrese de tener el software y la configuración necesarios para la EFA.

  • Para los grupos de nodo gestionados por Amazon EKS, consulte Crear un grupo de nodos gestionado con Bloques de capacidad para machine learning de Amazon EC2. Para los grupos de nodo autogestionados de Amazon EKS, consulte Uso de bloques de capacidad para ML con nodos autogestionados.

Después de crear un bloque de capacidad, podrá hacer lo siguiente con el bloque de capacidad:

Para obtener más información acerca de AWS ParallelCluster, consulte ¿Qué es AWS ParallelCluster?.