Utilisation de partitions GPU dans Amazon SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de partitions GPU dans Amazon SageMaker HyperPod

Les administrateurs de clusters peuvent choisir comment optimiser l'utilisation du GPU au sein de leur organisation. Vous pouvez activer le partitionnement du GPU à l'aide de la technologie NVIDIA Multi-Instance GPU (MIG) pour partitionner les ressources du GPU en instances isolées plus petites afin de mieux utiliser les ressources. Cette fonctionnalité permet d'exécuter simultanément plusieurs tâches de plus petite taille sur un seul GPU au lieu de consacrer l'ensemble du matériel à une seule tâche, souvent sous-utilisée. Cela permet d'éliminer le gaspillage de puissance de calcul et de mémoire.

Le partitionnement du GPU avec la technologie MIG prend en charge GPUs et vous permet de partitionner un seul GPU pris en charge en sept partitions GPU distinctes au maximum. Chaque partition GPU dispose de ressources de mémoire, de cache et de calcul dédiées, ce qui permet une isolation prévisible.

Avantages

  • Utilisation améliorée du processeur graphique : optimisez l'efficacité du calcul en partitionnant en GPUs fonction des besoins en calcul et en mémoire

  • Isolation des tâches : chaque partition GPU fonctionne indépendamment avec des ressources de mémoire, de cache et de calcul dédiées

  • Flexibilité des tâches - Support d'une combinaison de tâches sur un seul GPU physique, toutes exécutées en parallèle

  • Gestion flexible de l'installation - Supporte à la fois des configurations Kubernetes Do-it-yourself (DIY) à l'aide du client kubectl de ligne de commande Kubernetes et une solution gérée avec des étiquettes personnalisées pour configurer et appliquer facilement vos étiquettes associées aux partitions GPU

Types d’instance pris en charge

Le partitionnement du GPU avec la technologie MIG est pris en charge sur les types d' HyperPod instances suivants :

Instances GPU A100 - https://aws.amazon.com/ec2/ types d'instances/p4/

  • ml.p4d.24xlarge - 8 cartes NVIDIA A100 (80 Go par GPU) GPUs HBM2e

  • ml.p4de.24xlarge - 8 cartes NVIDIA A100 (80 Go par GPU) GPUs HBM2e

Instances GPU H100 - https://aws.amazon.com/ec2/ types d'instances/p5/

  • ml.p5.48xlarge - 8 cartes NVIDIA H100 (80 Go par GPU) GPUs HBM3

Instances GPU H200 - https://aws.amazon.com/ec2/ types d'instances/p5/

  • ml.p5e.48xlarge - 8 cartes NVIDIA H200 (141 Go par GPU) GPUs HBM3e

  • ml.p5en.48xlarge - 8 cartes NVIDIA H200 (141 Go par GPU) GPUs HBM3e

Instances GPU B200 - https://aws.amazon.com/ec2/ types d'instances/p6/

  • ml.p6b.48xlarge - 8 NVIDIA B200 GPUs

Partitions GPU

Les profils NVIDIA MIG définissent le mode GPUs de partitionnement. Chaque profil spécifie l'allocation de calcul et de mémoire par instance MIG. Les profils MIG associés à chaque type de GPU sont les suivants :

Processeur graphique A100 (ml.p4d.24xlarge)

Profil Mémoire (Go) Instances par GPU Total par ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

Processeur graphique H100 (ml.p5.48xlarge)

Profil Mémoire (Go) Instances par GPU Total par ml.p5,48xlarge

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

GPU H200 (ml.p5e.48xlarge et ml.p5en.48xlarge)

Profil Mémoire (Go) Instances par GPU Total par ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8