Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 22.04)
Untuk bantuan memulai, lihatMemulai dengan DLAMI.
Format nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}
EC2 Contoh yang didukung
Silakan lihat Perubahan penting pada DLAMI.
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.
AMI meliputi yang berikut:
AWS Layanan yang Didukung: Amazon EC2
Sistem Operasi: Ubuntu 22.04
Arsitektur Komputasi: x86
Versi terbaru yang tersedia diinstal untuk paket-paket berikut:
Kernel Linux: 6. 8
FSx Kilau
Docker
AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws
NVIDIA DCGM
Toolkit wadah Nvidia:
Perintah versi: nvidia-container-cli -V
NVIDIA-Docker2:
Perintah versi: versi nvidia-docker
Pengemudi NVIDIA: 570.133.20
NVIDIA CUDA 12.4-12.6 dan 12.8 tumpukan:
Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda
Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Versi NCCL yang dikompilasi: 2.26.5
CUDA standar: 12.8
PATH/usr/local/cudamenunjuk ke CUDA 12.8
Diperbarui di bawah env vars:
LD_LIBRARY_PATH memiliki/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.
Pemasang EFA: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.
AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws
Jenis volume EBS: gp3
Python:/3.10 usr/bin/python
NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme
Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Pemberitahuan
Toolkit Kontainer NVIDIA 1.17.4
Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Pembaruan EFA dari 1.37 ke 1.38 (Rilis pada 2025-01-31)
EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.
Dukungan Multi ENI
Ubuntu 22.04 secara otomatis mengatur dan mengonfigurasi perutean sumber pada beberapa NICss menggunakan cloud-init pada boot awalnya. Jika alur kerja attaching/detaching Anda menyertakan ENIs saat instans dihentikan, konfigurasi tambahan harus ditambahkan ke data pengguna cloud-init untuk memastikan konfigurasi NIC yang tepat selama peristiwa ini. Contoh konfigurasi cloud disediakan di bawah ini.
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Kebijakan Support
AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam
EC2 contoh dengan beberapa kartu jaringan
Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.
DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.
Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.
Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.
Untuk informasi lebih lanjut, lihat Panduan EFA di sini.
Instans P6-B200
P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e
Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Versi kernel disematkan menggunakan perintah:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.
Tanggal Rilis: 2025-05-16
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516
Ditambahkan
Menambahkan dukungan untuk instance P6-B200 EC2
Diperbarui
Installer EFA yang ditingkatkan dari versi 1.39.0 ke 1.40.0
Tingkatkan Plugin AWS OFI NCCL dari versi 1.13.0-aws ke 1.14.2-aws
Diperbarui dikompilasi Versi NCCL dari versi 2.22.3 ke 2.26.5
Diperbarui versi CUDA default dari versi 12.6 ke 12.8
Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3
Tanggal Rilis: 2025-05-05
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Diperbarui
Upgrade GDRCopy dari 2.4.1 ke 2.5.1
Tanggal Rilis: 2025-04-24
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Diperbarui
Tanggal Rilis: 2025-02-17
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Diperbarui
Diperbarui NVIDIA Container Toolkit dari versi 1.17.3 ke versi 1.17.4
Silakan lihat halaman catatan rilis di sini untuk informasi lebih lanjut: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Di Container Toolkit versi 1.17.4, pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Dihapus
Pustaka ruang pengguna yang dihapus cuobj dan nvdisasm disediakan oleh toolkit NVIDIA CUDA untuk mengatasi yang CVEs ada di Buletin Keamanan NVIDIA CUDA Toolkit
untuk 18 Februari 2025
Tanggal Rilis: 2025-02-07
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205
Ditambahkan
Ditambahkan CUDA toolkit versi 12.6 di direktori/-12.6 usr/local/cuda
Dihapus
CUDA versi 12.1 dan 12.2 telah dihapus dari DLAMI ini. Pelanggan dapat menginstal versi ini dari NVIDIA menggunakan tautan di bawah ini
Tanggal Rilis: 2025-01-31
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131
Diperbarui
Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0
EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.
Toolkit Kontainer Nvidia yang ditingkatkan dari 1.17.3 ke 1.17.4
Tanggal Rilis: 2025-01-17
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Diperbarui
Tanggal Rilis: 2024-11-18
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115
Ditambahkan
FSx Paket Amazon untuk dukungan Lustre ditambahkan.
Tetap
-
Karena perubahan kernel Ubuntu untuk mengatasi cacat pada fungsionalitas Kernel Address Space Layout Randomization (KASLR), instance G4Dn/G5 tidak dapat menginisialisasi CUDA dengan benar pada driver OSS Nvidia. Untuk mengurangi masalah ini, DLAMI ini menyertakan fungsionalitas yang secara dinamis memuat driver berpemilik untuk instans G4Dn dan G5. Harap izinkan periode inisialisasi singkat untuk pemuatan ini untuk memastikan bahwa instans Anda dapat berfungsi dengan baik.
Untuk memeriksa status dan kesehatan layanan ini, Anda dapat menggunakan perintah berikut:
sudo systemctl is-active dynamic_driver_load.service
active
Tanggal Rilis: 2024-10-23
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Diperbarui
Tanggal Rilis: 2024-10-01
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930
Diperbarui
Driver Nvidia dan Fabric Manager yang ditingkatkan dari versi 535.183.01 ke 550.90.07
Versi EFA yang ditingkatkan dari 1.32.0 ke 1.34.0
Upgrade NCCL ke versi terbaru 2.22.3 untuk semua versi CUDA
CUDA 12.1, 12.2 ditingkatkan dari 2.18.5+ .2 CUDA12
CUDA 12.3 ditingkatkan dari versi 2.21.5+ .4 CUDA12
Ditambahkan
Ditambahkan CUDA toolkit versi 12.4 di direktori/-12.4 usr/local/cuda
Menambahkan dukungan untuk instance P5e EC2 .
Tanggal Rilis: 2024-08-19
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816
Ditambahkan
Ditambahkan dukungan untuk contoh G6e EC2
.
Tanggal Rilis: 2024-06-06
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Diperbarui
Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08
Tanggal Rilis: 2024-05-15
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513
Dihapus
Amazon FSx untuk dukungan Lustre telah dihapus dalam rilis ini karena ketidakcocokan dengan versi kernel Ubuntu 22.04 terbaru. Support FSx for for Lustre akan dipulihkan setelah versi kernel terbaru didukung. Pelanggan yang membutuhkan FSx Lustre harus terus menggunakan Deep Learning Base GPU AMI (Ubuntu
20.04).
Tanggal Rilis: 2024-04-29
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429
Ditambahkan
Rilis awal dari Deep Learning Base OSS DLAMI untuk Ubuntu 22.04