Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan partisi GPU di Amazon SageMaker HyperPod
Administrator cluster dapat memilih cara memaksimalkan pemanfaatan GPU di seluruh organisasi mereka. Anda dapat mengaktifkan partisi GPU dengan teknologi NVIDIA Multi-Instance GPU (MIG) untuk mempartisi sumber daya GPU menjadi instans yang lebih kecil dan terisolasi untuk pemanfaatan sumber daya yang lebih baik. Kemampuan ini memberikan kemampuan untuk menjalankan beberapa tugas berukuran lebih kecil secara bersamaan pada satu GPU alih-alih mendedikasikan seluruh perangkat keras untuk satu tugas yang seringkali kurang dimanfaatkan. Ini menghilangkan daya komputasi dan memori yang terbuang.
Partisi GPU dengan teknologi MIG mendukung GPUs dan memungkinkan Anda untuk mempartisi satu GPU yang didukung menjadi hingga tujuh partisi GPU terpisah. Setiap partisi GPU memiliki memori khusus, cache, dan sumber daya komputasi, memberikan isolasi yang dapat diprediksi.
Manfaat
-
Peningkatan pemanfaatan GPU - Memaksimalkan efisiensi komputasi dengan mempartisi GPUs berdasarkan persyaratan komputasi dan memori
-
Isolasi tugas - Setiap partisi GPU beroperasi secara independen dengan memori khusus, cache, dan sumber daya komputasi
-
Fleksibilitas tugas - Mendukung campuran tugas pada satu GPU fisik, semuanya berjalan secara paralel
-
Flexible setup management - Mendukung konfigurasi Kubernetes Do-it-yourself (DIY) menggunakan klien command-line Kubernetes
kubectl, dan solusi terkelola dengan label khusus untuk mengonfigurasi dan menerapkan label Anda yang terkait dengan partisi GPU dengan mudah
Tipe Instans Yang Didukung
Partisi GPU dengan teknologi MIG didukung pada jenis instance berikut: HyperPod
Instans GPU A100 - tipe instance/p4/https://aws.amazon.com/ec2/
-
ml.p4d.24xlarge - 8 NVIDIA A100 (80GB per GPU) GPUs HBM2e
-
ml.p4de.24xlarge - 8 NVIDIA A100 (80GB per GPU) GPUs HBM2e
Instans GPU H100 - jenis-instance/p5/https://aws.amazon.com/ec2/
-
ml.p5.48xlarge - 8 NVIDIA H100 (80GB per GPU) GPUs HBM3
Instans GPU H200 - jenis-instance/p5/https://aws.amazon.com/ec2/
-
ml.p5e.48xlarge - 8 NVIDIA H200 (141GB per GPU) GPUs HBM3e
-
ml.p5en.48xlarge - 8 NVIDIA H200 (141GB per GPU) GPUs HBM3e
Instans GPU B200 - jenis-instance/p6/https://aws.amazon.com/ec2/
-
ml.p6b.48xlarge - 8 NVIDIA B200 GPUs
Partisi GPU
Profil NVIDIA MIG menentukan bagaimana GPUs dipartisi. Setiap profil menentukan alokasi komputasi dan memori per instance MIG. Berikut ini adalah profil MIG yang terkait dengan setiap jenis GPU:
GPU A100 (ml.p4d.24xlarge)
| Profil | Memori (GB) | Instans per GPU | Total per ml.p4d.24xlarge |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
GPU H100 (ml.p5.48xbesar)
| Profil | Memori (GB) | Instans per GPU | Total per ml.p5.48xlarge |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
GPU H200 (ml.p5e.48xlarge dan ml.p5en.48xlarge)
| Profil | Memori (GB) | Instans per GPU | Total per ml.p5en.48xlarge |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |