Gunakan akselerasi yang dioptimalkan EKS AMIs untuk instans GPU - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan akselerasi yang dioptimalkan EKS AMIs untuk instans GPU

Amazon EKS mendukung Amazon Linux dan AMIs Bottlerocket yang dioptimalkan EKS untuk instans GPU. Akselerasi yang dioptimalkan EKS AMIs menyederhanakan menjalankan beban kerja AI dan MLdi kluster EKS dengan menyediakan image sistem operasi tervalidasi yang telah dibuat sebelumnya untuk tumpukan Kubernetes yang dipercepat. Selain komponen inti Kubernetes yang disertakan dalam standar yang dioptimalkan EKS AMIs, akselerasi yang dioptimalkan EKS AMIs mencakup modul kernel dan driver yang diperlukan untuk menjalankan instans GPU dan EC2 NVIDIA, dan instans GPU Inferentia G dan P Trainium EC2 di AWS kluster EKS.

Tabel di bawah ini menunjukkan tipe instans GPU yang didukung untuk setiap varian AMI akselerasi yang dioptimalkan EKS. Lihat rilis yang dioptimalkan EKS dan AL2023 rilis Bottlerocket GitHub untuk pembaruan terbaru pada varian AMI.

Varian EKS AMI Jenis instans EC2

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2023 LENGAN NVIDIA

p6e-gb200, g5g

AL2023 x86_64 Neuron

inf1, inf2, trn1, trn2

Botol oket x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Bottlerocket aarch64/arm64 aws-k8s-nvidia

g5g

Bottlerocket x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA yang dioptimalkan EKS AMIs

Dengan menggunakan NVIDIA yang dioptimalkan EKS AMIs, Anda menyetujui Perjanjian Lisensi Pengguna Akhir Cloud (EULA) NVIDIA.

Untuk menemukan NVIDIA terbaru yang dioptimalkan EKS AMIs, lihat Ambil AMI Amazon Linux yang direkomendasikan IDs dan. Ambil Bottlerocket AMI yang direkomendasikan IDs

Saat menggunakan Amazon Elastic Fabric Adapter (EFA) dengan NVIDIA yang dioptimalkan EKS AL2023 atau Bottlerocket AMIs, Anda harus menginstal plugin perangkat EFA secara terpisah. Untuk informasi selengkapnya, lihat Jalankan pelatihan pembelajaran mesin di Amazon EKS dengan Adaptor Kain Elastis.

EKS AL2023 NVIDIA AMIs

Saat menggunakan operator GPU NVIDIA dengan AL2023 NVIDIA yang dioptimalkan EKS AMIs, Anda harus menonaktifkan instalasi operator driver dan toolkit, karena ini sudah termasuk dalam EKS. AMIs AL2023 NVIDIA yang dioptimalkan EKS AMIs tidak menyertakan plugin perangkat NVIDIA Kubernetes atau driver NVIDIA DRA, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat NVIDIA Kubernetes.

Selain komponen EKS AMI standar, AL2023 NVIDIA yang dioptimalkan EKS AMIs menyertakan komponen-komponen berikut.

  • Pengemudi NVIDIA

  • Driver mode pengguna NVIDIA CUDA

  • Toolkit kontainer NVIDIA

  • Manajer kain NVIDIA

  • NVIDIA bertahan

  • Pengemudi NVIDIA IMEX

  • Manajer NVLink Subnet NVIDIA

  • EFA minimal (modul kernel dan rdma-core)

Untuk detail tentang driver mode pengguna NVIDIA CUDA dan CUDA yang runtime/libraries digunakan dalam wadah aplikasi, lihat dokumentasi NVIDIA. Versi CUDA yang ditampilkan nvidia-smi adalah versi driver mode pengguna NVIDIA CUDA yang diinstal pada host, yang harus kompatibel dengan CUDA yang runtime/libraries digunakan dalam wadah aplikasi.

AL2023 NVIDIA yang dioptimalkan EKS AMIs mendukung kernel 6.12 untuk Kubernetes versi 1.33 ke atas, dan driver NVIDIA versi 580 untuk semua versi Kubernetes. Driver NVIDIA 580 diperlukan untuk menggunakan CUDA 13+.

Lihat AL2023 rilis yang dioptimalkan EKS GitHub untuk detail versi komponen yang disertakan dalam. AMIs Lihat skrip instalasi EKS AL2023 NVIDIA AMI dan skrip pemuatan kernel untuk detail tentang bagaimana EKS AMI mengonfigurasi dependensi NVIDIA. Anda dapat menemukan daftar paket yang diinstal dan versinya pada instance EC2 yang sedang berjalan dengan dnf list installed perintah.

Saat membangun kustom AMIs dengan EKS yang dioptimalkan AMIs sebagai basis, tidak disarankan atau didukung untuk menjalankan peningkatan sistem operasi (mis. dnf upgrade) atau tingkatkan salah satu paket Kubernetes atau GPU yang disertakan dalam EKS yang dioptimalkan AMIs, karena ini berisiko merusak kompatibilitas komponen. Jika Anda memutakhirkan sistem operasi atau paket yang disertakan dalam EKS yang dioptimalkan AMIs, disarankan untuk menguji secara menyeluruh dalam lingkungan pengembangan atau pementasan sebelum menerapkan ke produksi.

Saat membuat kustom AMIs untuk instance GPU, disarankan untuk membuat kustom terpisah AMIs untuk setiap pembuatan tipe instans dan keluarga yang akan Anda jalankan. Driver dan paket penginstalan AMIs selektif yang dioptimalkan EKS yang dioptimalkan secara selektif saat runtime berdasarkan generasi dan keluarga tipe instans yang mendasarinya. Untuk informasi selengkapnya, lihat skrip EKS AMI untuk instalasi dan runtime.

EKS Bottlerocket NVIDIA AMIs

Saat menggunakan operator GPU NVIDIA dengan Bottlerocket NVIDIA yang dioptimalkan EKS AMIs, Anda harus menonaktifkan instalasi operator driver, toolkit, dan plugin perangkat karena ini sudah termasuk dalam EKS. AMIs

Selain komponen EKS AMI standar, NVIDIA Bottlerocket yang dioptimalkan EKS mencakup komponen-komponen berikut. AMIs Ketergantungan minimal untuk EFA (modul kernel dan rdma-core) dipasang di semua varian Bottlerocket.

  • Plugin perangkat NVIDIA Kubernetes

  • Pengemudi NVIDIA

  • Driver mode pengguna NVIDIA CUDA

  • Toolkit kontainer NVIDIA

  • Manajer kain NVIDIA

  • NVIDIA bertahan

  • Pengemudi NVIDIA IMEX

  • Manajer NVLink Subnet NVIDIA

  • Manajer NVIDIA MIG

Untuk detail tentang driver mode pengguna NVIDIA CUDA dan CUDA yang runtime/libraries digunakan dalam wadah aplikasi, lihat dokumentasi NVIDIA. Versi CUDA yang ditampilkan nvidia-smi adalah versi driver mode pengguna NVIDIA CUDA yang diinstal pada host, yang harus kompatibel dengan CUDA yang runtime/libraries digunakan dalam wadah aplikasi.

Lihat Informasi Versi Bottlerocket di dokumentasi Bottlerocket untuk detail tentang paket yang diinstal dan versinya. Bottlerocket NVIDIA yang dioptimalkan EKS AMIs mendukung kernel 6.12 untuk Kubernetes versi 1.33 ke atas, dan driver NVIDIA versi 580 untuk Kubernetes versi 1.34 ke atas. Driver NVIDIA 580 diperlukan untuk menggunakan CUDA 13+.

Neuron yang dioptimalkan EKS AMIs

Untuk detail tentang cara menjalankan beban kerja pelatihan dan inferensi menggunakan Neuron dengan Amazon EKS, lihat referensi berikut:

Untuk menemukan Neuron terbaru yang dioptimalkan EKS AMIs, lihat Ambil AMI Amazon Linux yang direkomendasikan IDs dan. Ambil Bottlerocket AMI yang direkomendasikan IDs

Saat menggunakan Amazon Elastic Fabric Adapter (EFA) dengan Neuron yang dioptimalkan EKS AL2023 atau Bottlerocket AMIs, Anda harus menginstal plugin perangkat EFA secara terpisah. Untuk informasi selengkapnya, lihat Jalankan pelatihan pembelajaran mesin di Amazon EKS dengan Adaptor Kain Elastis.

AL2023 Neuron EKS AMIs

AL2023 Neuron yang dioptimalkan EKS AMIs tidak menyertakan plugin perangkat Neuron Kubernetes atau ekstensi penjadwal Neuron Kubernetes, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat Neuron Kubernetes.

Selain komponen EKS AMI standar, AL2023 Neuron yang dioptimalkan EKS AMIs mencakup komponen-komponen berikut.

  • Pengemudi neuron (aws-neuronx-dkms)

  • Alat neuron (aws-neuronx-tools)

  • EFA minimal (modul kernel dan rdma-core)

Lihat skrip instalasi EKS AL2023 Neuron AMI untuk detail tentang bagaimana EKS AMIs mengonfigurasi dependensi Neuron. Lihat AL2023 rilis yang dioptimalkan EKS GitHub untuk melihat versi komponen yang disertakan dalam AMI. Anda dapat menemukan daftar paket yang diinstal dan versinya pada instance EC2 yang sedang berjalan dengan dnf list installed perintah.

Neuron Roket Botol EKS AMIs

Varian Bottlerocket standar (aws-k8s) mencakup dependensi Neuron yang secara otomatis terdeteksi dan dimuat saat berjalan pada instans Inferentia atau Trainium EC2. AWS

Bottlerocket yang dioptimalkan EKS AMIs tidak menyertakan plugin perangkat Neuron Kubernetes atau ekstensi penjadwal Neuron Kubernetes, dan ini harus diinstal secara terpisah. Untuk informasi selengkapnya, lihat Instal plugin perangkat Neuron Kubernetes.

Selain komponen EKS AMI standar, Neuron Bottlerocket yang dioptimalkan EKS mencakup komponen-komponen berikut. AMIs

  • Pengemudi neuron (aws-neuronx-dkms)

  • EFA minimal (modul kernel dan rdma-core)

Saat menggunakan Bottlerocket yang dioptimalkan EKS AMIs dengan instance Neuron, berikut ini harus dikonfigurasi dalam data pengguna Bottlerocket. Pengaturan ini memungkinkan wadah untuk mengambil kepemilikan perangkat Neuron yang dipasang berdasarkan runAsGroup nilai runAsUser dan yang disediakan dalam spesifikasi beban kerja. Untuk informasi lebih lanjut tentang dukungan Neuron di Bottlerocket, lihat Quickstart on EKS readme on. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Lihat changelog kit kernel Bottlerocket untuk informasi tentang versi driver Neuron yang disertakan dalam Bottlerocket yang dioptimalkan EKS. AMIs