Menggunakan partisi GPU di Amazon SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan partisi GPU di Amazon SageMaker HyperPod

Administrator cluster dapat memilih cara memaksimalkan pemanfaatan GPU di seluruh organisasi mereka. Anda dapat mengaktifkan partisi GPU dengan teknologi NVIDIA Multi-Instance GPU (MIG) untuk mempartisi sumber daya GPU menjadi instans yang lebih kecil dan terisolasi untuk pemanfaatan sumber daya yang lebih baik. Kemampuan ini memberikan kemampuan untuk menjalankan beberapa tugas berukuran lebih kecil secara bersamaan pada satu GPU alih-alih mendedikasikan seluruh perangkat keras untuk satu tugas yang seringkali kurang dimanfaatkan. Ini menghilangkan daya komputasi dan memori yang terbuang.

Partisi GPU dengan teknologi MIG mendukung GPUs dan memungkinkan Anda untuk mempartisi satu GPU yang didukung menjadi hingga tujuh partisi GPU terpisah. Setiap partisi GPU memiliki memori khusus, cache, dan sumber daya komputasi, memberikan isolasi yang dapat diprediksi.

Manfaat

  • Peningkatan pemanfaatan GPU - Memaksimalkan efisiensi komputasi dengan mempartisi GPUs berdasarkan persyaratan komputasi dan memori

  • Isolasi tugas - Setiap partisi GPU beroperasi secara independen dengan memori khusus, cache, dan sumber daya komputasi

  • Fleksibilitas tugas - Mendukung campuran tugas pada satu GPU fisik, semuanya berjalan secara paralel

  • Flexible setup management - Mendukung konfigurasi Kubernetes Do-it-yourself (DIY) menggunakan klien command-line Kuberneteskubectl, dan solusi terkelola dengan label khusus untuk mengonfigurasi dan menerapkan label Anda yang terkait dengan partisi GPU dengan mudah

Tipe Instans Yang Didukung

Partisi GPU dengan teknologi MIG didukung pada jenis instance berikut: HyperPod

Instans GPU A100 - tipe instance/p4/https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge - 8 NVIDIA A100 (80GB per GPU) GPUs HBM2e

  • ml.p4de.24xlarge - 8 NVIDIA A100 (80GB per GPU) GPUs HBM2e

Instans GPU H100 - jenis-instance/p5/https://aws.amazon.com/ec2/

  • ml.p5.48xlarge - 8 NVIDIA H100 (80GB per GPU) GPUs HBM3

Instans GPU H200 - jenis-instance/p5/https://aws.amazon.com/ec2/

  • ml.p5e.48xlarge - 8 NVIDIA H200 (141GB per GPU) GPUs HBM3e

  • ml.p5en.48xlarge - 8 NVIDIA H200 (141GB per GPU) GPUs HBM3e

Instans GPU B200 - jenis-instance/p6/https://aws.amazon.com/ec2/

  • ml.p6b.48xlarge - 8 NVIDIA B200 GPUs

Partisi GPU

Profil NVIDIA MIG menentukan bagaimana GPUs dipartisi. Setiap profil menentukan alokasi komputasi dan memori per instance MIG. Berikut ini adalah profil MIG yang terkait dengan setiap jenis GPU:

GPU A100 (ml.p4d.24xlarge)

Profil Memori (GB) Instans per GPU Total per ml.p4d.24xlarge

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

GPU H100 (ml.p5.48xbesar)

Profil Memori (GB) Instans per GPU Total per ml.p5.48xlarge

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

GPU H200 (ml.p5e.48xlarge dan ml.p5en.48xlarge)

Profil Memori (GB) Instans per GPU Total per ml.p5en.48xlarge

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8