Uso de particiones de GPU en Amazon SageMaker HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de particiones de GPU en Amazon SageMaker HyperPod

Los administradores de clústeres pueden elegir cómo maximizar el uso de la GPU en su organización. Puede habilitar la partición de la GPU con la tecnología de GPU de instancias múltiples (MIG) de NVIDIA para particionar los recursos de la GPU en instancias más pequeñas y aisladas para una mejor utilización de los recursos. Esta capacidad permite ejecutar varias tareas de menor tamaño de forma simultánea en una sola GPU, en lugar de dedicar todo el hardware a una sola tarea, a menudo infrautilizada. Esto elimina el desperdicio de memoria y potencia de cómputo.

El particionamiento de la GPU con la tecnología MIG admite GPUs y permite particionar una sola GPU compatible en hasta siete particiones de GPU independientes. Cada partición de la GPU tiene recursos de memoria, caché y cómputo dedicados, lo que proporciona un aislamiento predecible.

Ventajas

  • Utilización mejorada de la GPU: maximice la eficiencia informática mediante la partición en GPUs función de los requisitos de procesamiento y memoria

  • Aislamiento de tareas: cada partición de la GPU funciona de forma independiente con recursos de memoria, caché y cómputo dedicados

  • Flexibilidad de tareas: Support una combinación de tareas en una sola GPU física, todas ejecutándose en paralelo

  • Administración flexible de la configuración: Suponga configuraciones de Kubernetes Do-it-yourself (hágalo usted mismo) mediante el cliente kubectl de línea de comandos de Kubernetes y una solución gestionada con etiquetas personalizadas para configurar y aplicar fácilmente las etiquetas asociadas a las particiones de la GPU

Tipos de instancias admitidos

La partición de la GPU con tecnología MIG es compatible con los siguientes tipos de instancias: HyperPod

Instancias de GPU A100: tipos de instancia/p4/ https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge - 8 NVIDIA A100 (80 GB por GPU) GPUs HBM2e

  • ml.p4de.24xlarge - 8 NVIDIA A100 (80 GB por GPU) GPUs HBM2e

Instancias de GPU https://aws.amazon.com/ec2/H100: tipos de instancia/p5/

  • ml.p5.48xlarge: 8 NVIDIA H100 (80 GB por GPU) GPUs HBM3

Instancias de GPU https://aws.amazon.com/ec2/H200: tipos de instancia/p5/

  • ml.p5e.48xlarge: 8 NVIDIA H200 (141 GB por GPU) GPUs HBM3e

  • ml.p5en.48xlarge - 8 NVIDIA H200 (141 GB por GPU) GPUs HBM3e

Instancias de GPU https://aws.amazon.com/ec2/ B200: tipos de instancia/p6/

  • ml.p6b.48xlarge - 8 NVIDIA B200 GPUs

Particiones de GPU

Los perfiles MIG de NVIDIA definen cómo GPUs se particionan. Cada perfil especifica la asignación de cómputo y memoria por instancia MIG. Los siguientes son los perfiles MIG asociados a cada tipo de GPU:

GPU A100 (ml.p4d.24xlarge)

Perfil Memoria (GB) Instancias por GPU Total por ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

GPU H100 (ml.p5.48xlarge)

Perfil Memoria (GB) Instancias por GPU Total por ml.p5,48 x large

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

GPU H200 (ml.p5e.48xlarge y ml.p5en.48xlarge)

Perfil Memoria (GB) Instancias por GPU Total por ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8