翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod での GPU パーティションの使用 HyperPod
クラスター管理者は、組織全体で GPU 使用率を最大化する方法を選択できます。NVIDIA マルチインスタンス GPU (MIG) テクノロジーで GPU パーティショニングを有効にして、GPU リソースを分離された小さなインスタンスに分割し、リソース使用率を向上させることができます。この機能を使用すると、ハードウェア全体を 1 つの十分に活用されていないタスクに専念するのではなく、1 つの GPU で複数の小さなサイズのタスクを同時に実行できます。これにより、無駄なコンピューティング能力とメモリがなくなります。
MIG テクノロジーを使用した GPU パーティショニングは GPUs、サポートされている 1 つの GPU を最大 7 つの別々の GPU パーティションに分割できます。各 GPU パーティションには専用のメモリ、キャッシュ、コンピューティングリソースがあり、予測可能な分離を提供します。
利点
-
GPU 使用率の向上 - コンピューティングとメモリの要件に基づいて GPUsパーティション化することで、コンピューティング効率を最大化
-
タスクの分離 - 各 GPU パーティションは、専用のメモリ、キャッシュ、コンピューティングリソースで独立して動作します。
-
タスクの柔軟性 - 単一の物理 GPU でタスクの組み合わせをサポートし、すべて並行して実行されます。
-
柔軟なセットアップ管理 - Kubernetes コマンドラインクライアント を使用した DoDo-it-yourself (DIY) Kubernetes 設定と
kubectl、GPU パーティションに関連付けられたラベルを簡単に設定および適用するためのカスタムラベル付きのマネージドソリューションの両方をサポートします。
サポートされるインスタンスタイプ
MIG テクノロジーを使用した GPU パーティショニングは、次の HyperPod インスタンスタイプでサポートされています。
A100 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p4/
-
ml.p4d.24xlarge - 8 NVIDIA A100 GPUs (GPU あたり 80 GB HBM2e)
-
ml.p4de.24xlarge - 8 NVIDIA A100 GPUs (GPU あたり 80 GB HBM2e)
H100 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5.48xlarge - 8 NVIDIA H100 GPUs (GPU あたり 80 GB HBM3)
H200 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5e.48xlarge - 8 NVIDIA H200 GPUs (GPU あたり 141GB HBM3e)
-
ml.p5en.48xlarge - 8 NVIDIA H200 GPUs (GPU あたり 141GB HBM3e)
B200 GPU インスタンス - https://aws.amazon.com/ec2/instance-types/p6/
-
ml.p6b.48xlarge - NVIDIA B200 GPUs
GPU パーティション
NVIDIA MIG プロファイルは、GPUsパーティション化方法を定義します。各プロファイルは、MIG インスタンスあたりのコンピューティングとメモリの割り当てを指定します。各 GPU タイプに関連付けられた MIG プロファイルを次に示します。
A100 GPU (ml.p4d.24xlarge)
| プロファイル | メモリ (GB) | GPU あたりのインスタンス数 | ml.p4d.24xlarge あたりの合計 |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100 GPU (ml.p5.48xlarge)
| プロファイル | メモリ (GB) | GPU あたりのインスタンス数 | ml.p5.48xlarge あたりの合計 |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200 GPU (ml.p5e.48xlarge および ml.p5en.48xlarge)
| プロファイル | メモリ (GB) | GPU あたりのインスタンス数 | ml.p5en.48xlarge あたりの合計 |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |