Avantages Types d’instance pris en charge Partitions GPU

Utilisation de partitions GPU dans Amazon SageMaker HyperPod

Les administrateurs de clusters peuvent choisir comment optimiser l'utilisation du GPU au sein de leur organisation. Vous pouvez activer le partitionnement du GPU à l'aide de la technologie NVIDIA Multi-Instance GPU (MIG) pour partitionner les ressources GPU en instances isolées plus petites afin de mieux utiliser les ressources. Cette fonctionnalité permet d'exécuter simultanément plusieurs tâches de plus petite taille sur un seul GPU au lieu de consacrer l'ensemble du matériel à une seule tâche, souvent sous-utilisée. Cela permet d'éliminer le gaspillage de puissance de calcul et de mémoire.

Le partitionnement du GPU à l'aide de la technologie MIG prend en charge GPUs et vous permet de partitionner un seul GPU pris en charge en sept partitions GPU distinctes au maximum. Chaque partition GPU dispose de ressources de mémoire, de cache et de calcul dédiées, ce qui permet une isolation prévisible.

Avantages

Utilisation améliorée du processeur graphique : optimisez l'efficacité du calcul en partitionnant en GPUs fonction des besoins en calcul et en mémoire
Isolation des tâches : chaque partition GPU fonctionne indépendamment avec des ressources de mémoire, de cache et de calcul dédiées
Flexibilité des tâches - Support d'une combinaison de tâches sur un seul GPU physique, toutes exécutées en parallèle
Gestion flexible de l'installation - Supporte à la fois des configurations Kubernetes Do-it-yourself (DIY) à l'aide du client kubectl de ligne de commande Kubernetes et une solution gérée avec des étiquettes personnalisées pour configurer et appliquer facilement vos étiquettes associées aux partitions GPU

Types d’instance pris en charge

Le partitionnement du GPU avec la technologie MIG est pris en charge sur les types d' HyperPod instances suivants :

Instances GPU A100 - https://aws.amazon.com/ec2/ types d'instances/p4/

ml.p4d.24xlarge - 8 cartes NVIDIA A100 (80 Go par GPU) GPUs HBM2e
ml.p4de.24xlarge - 8 cartes NVIDIA A100 (80 Go par GPU) GPUs HBM2e

Instances GPU H100 - https://aws.amazon.com/ec2/ types d'instances/p5/

ml.p5.48xlarge - 8 cartes NVIDIA H100 (80 Go par GPU) GPUs HBM3

Instances GPU H200 - https://aws.amazon.com/ec2/ types d'instances/p5/

ml.p5e.48xlarge - 8 cartes NVIDIA H200 (141 Go par GPU) GPUs HBM3e
ml.p5en.48xlarge - 8 cartes NVIDIA H200 (141 Go par GPU) GPUs HBM3e

Instances GPU B200 - https://aws.amazon.com/ec2/ types d'instances/p6/

ml.p6b.48xlarge - 8 NVIDIA B200 GPUs

Partitions GPU

Les profils NVIDIA MIG définissent le mode GPUs de partitionnement. Chaque profil spécifie l'allocation de calcul et de mémoire par instance MIG. Les profils MIG associés à chaque type de GPU sont les suivants :

Processeur graphique A100 (ml.p4d.24xlarge)

Profil	Mémoire (Go)	Instances par GPU	Total par ml.p4d.24xlarge
`1g.5gb`	5	7	56
`2g.10gb`	10	3	24
`3g.20gb`	20	2	16
`4g.20gb`	20	1	8
`7g.40gb`	40	1	8

Processeur graphique H100 (ml.p5.48xlarge)

Profil	Mémoire (Go)	Instances par GPU	Total par ml.p5,48xlarge
`1g.10gb`	10	7	56
`1g.20gb`	20	4	32
`2g.20gb`	20	3	24
`3g.40gb`	40	2	16
`4g.40gb`	40	1	8
`7g.80gb`	80	1	8

GPU H200 (ml.p5e.48xlarge et ml.p5en.48xlarge)

Profil	Mémoire (Go)	Instances par GPU	Total par ml.p5en.48xlarge
`1g.18gb`	18	7	56
`1g.35gb`	35	4	32
`2g.35gb`	35	3	24
`3g.71gb`	71	2	16
`4g.71gb`	71	1	8
`7g.141gb`	141	1	8

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Notes de mise à jour

Configuration des partitions GPU