Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod

クラスター管理者は、組織全体で GPU 使用率を最大化する方法を選択できます。NVIDIA マルチインスタンス GPU (MIG) テクノロジーで GPU パーティショニングを有効にして、GPU リソースを分離された小さなインスタンスに分割し、リソース使用率を向上させることができます。この機能を使用すると、ハードウェア全体を 1 つの十分に活用されていないタスクに専念するのではなく、1 つの GPU で複数の小さなサイズのタスクを同時に実行できます。これにより、無駄なコンピューティング能力とメモリがなくなります。

MIG テクノロジーを使用した GPU パーティショニングは GPUs、サポートされている 1 つの GPU を最大 7 つの別々の GPU パーティションに分割できます。各 GPU パーティションには専用のメモリ、キャッシュ、コンピューティングリソースがあり、予測可能な分離を提供します。

利点

  • GPU 使用率の向上 - コンピューティングとメモリの要件に基づいて GPUsパーティション化することで、コンピューティング効率を最大化

  • タスクの分離 - 各 GPU パーティションは、専用のメモリ、キャッシュ、コンピューティングリソースで独立して動作します。

  • タスクの柔軟性 - 単一の物理 GPU でタスクの組み合わせをサポートし、すべて並行して実行されます。

  • 柔軟なセットアップ管理 - Kubernetes コマンドラインクライアント を使用した DoDo-it-yourself (DIY) Kubernetes 設定とkubectl、GPU パーティションに関連付けられたラベルを簡単に設定および適用するためのカスタムラベル付きのマネージドソリューションの両方をサポートします。

サポートされるインスタンスタイプ

MIG テクノロジーを使用した GPU パーティショニングは、次の HyperPod インスタンスタイプでサポートされています。

A100 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p4/

  • ml.p4d.24xlarge - 8 NVIDIA A100 GPUs (GPU あたり 80 GB HBM2e)

  • ml.p4de.24xlarge - 8 NVIDIA A100 GPUs (GPU あたり 80 GB HBM2e)

H100 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5.48xlarge - 8 NVIDIA H100 GPUs (GPU あたり 80 GB HBM3)

H200 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5e.48xlarge - 8 NVIDIA H200 GPUs (GPU あたり 141GB HBM3e)

  • ml.p5en.48xlarge - 8 NVIDIA H200 GPUs (GPU あたり 141GB HBM3e)

B200 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p6/

  • ml.p6b.48xlarge - NVIDIA B200 GPUs

GPU パーティション

NVIDIA MIG プロファイルは、GPUsパーティション化方法を定義します。各プロファイルは、MIG インスタンスあたりのコンピューティングとメモリの割り当てを指定します。各 GPU タイプに関連付けられた MIG プロファイルを次に示します。

A100 GPU (ml.p4d.24xlarge)

プロファイル メモリ (GB) GPU あたりのインスタンス数 ml.p4d.24xlarge あたりの合計

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

H100 GPU (ml.p5.48xlarge)

プロファイル メモリ (GB) GPU あたりのインスタンス数 ml.p5.48xlarge あたりの合計

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

H200 GPU (ml.p5e.48xlarge および ml.p5en.48xlarge)

プロファイル メモリ (GB) GPU あたりのインスタンス数 ml.p5en.48xlarge あたりの合計

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8