Usando partições de GPU na Amazon SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando partições de GPU na Amazon SageMaker HyperPod

Os administradores de cluster podem escolher como maximizar a utilização da GPU em toda a organização. Você pode habilitar o particionamento de GPU com a tecnologia NVIDIA Multi-Instance GPU (MIG) para particionar recursos de GPU em instâncias menores e isoladas para melhor utilização dos recursos. Esse recurso fornece a capacidade de executar várias tarefas menores simultaneamente em uma única GPU, em vez de dedicar todo o hardware a uma única tarefa, muitas vezes subutilizada. Isso elimina o desperdício de energia computacional e memória.

O particionamento de GPU com a tecnologia MIG suporta GPUs e permite particionar uma única GPU compatível em até sete partições de GPU separadas. Cada partição de GPU tem recursos dedicados de memória, cache e computação, fornecendo isolamento previsível.

Benefícios

  • Melhor utilização da GPU - Maximize a eficiência computacional por meio do particionamento GPUs com base nos requisitos de computação e memória

  • Isolamento de tarefas - Cada partição de GPU opera de forma independente com recursos dedicados de memória, cache e computação

  • Flexibilidade de tarefas - Support uma combinação de tarefas em uma única GPU física, todas funcionando paralelamente

  • Gerenciamento de configuração flexível - Support configurações Do-it-yourself (DIY) do Kubernetes usando o cliente kubectl de linha de comando Kubernetes e uma solução gerenciada com rótulos personalizados para configurar e aplicar facilmente seus rótulos associados às partições da GPU

Tipos de instâncias compatíveis

O particionamento de GPU com a tecnologia MIG é compatível com os seguintes tipos de instância: HyperPod

Instâncias de GPU A100 - tipos de instância/p4/ https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge - 8 NVIDIA A100 (80 GB por GPU) GPUs HBM2e

  • ml.p4de.24xlarge - 8 NVIDIA A100 (80 GB por GPU) GPUs HBM2e

Instâncias de GPU H100 - tipos de instância/p5/ https://aws.amazon.com/ec2/

  • ml.p5.48xlarge - 8 NVIDIA H100 (80 GB por GPU) GPUs HBM3

Instâncias de GPU H200 - tipos de instância/p5/ https://aws.amazon.com/ec2/

  • ml.p5e.48xlarge - 8 NVIDIA H200 (141 GB por GPU) GPUs HBM3e

  • ml.p5en.48xlarge - 8 NVIDIA H200 (141 GB por GPU) GPUs HBM3e

Instâncias de GPU B200 - tipos de instância/p6/ https://aws.amazon.com/ec2/

  • ml.p6b.48xlarge - 8 NVIDIA B200 GPUs

Partições de GPU

Os perfis NVIDIA MIG definem como GPUs são particionados. Cada perfil especifica a alocação de computação e memória por instância MIG. A seguir estão os perfis MIG associados a cada tipo de GPU:

GPU A100 (ml.p4d.24xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

GPU H100 (ml.p5.48xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p5,48xlarge

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

GPU H200 (ml.p5e.48xlarge e ml.p5en.48xlarge)

Perfil Memória (GB) Instâncias por GPU Total por ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8