Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS GPU Basis Pembelajaran Mendalam AMI (Amazon Linux 2023)
Untuk bantuan memulai, lihatMemulai dengan DLAMI.
Format nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Instans yang Didukung
Silakan lihat Perubahan penting pada DLAMI
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
AMI meliputi yang berikut:
AWS Layanan yang Didukung: Amazon EC2
Sistem Operasi: Amazon Linux 2023
Arsitektur Komputasi: x86
Versi terbaru yang tersedia diinstal untuk paket-paket berikut:
Kernel Linux: 6.1
FSx Kilau
NVIDIA GDS
Docker
AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws
NVIDIA DCGM
Toolkit wadah Nvidia:
Perintah versi: nvidia-container-cli -V
NVIDIA-Docker2:
Perintah versi: versi nvidia-docker
Pengemudi NVIDIA: 570.133.20
NVIDIA CUDA 12.4-12.6 dan 12.8 tumpukan:
Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda
Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Versi NCCL yang dikompilasi: 2.26.5
CUDA standar: 12.8
PATH/usr/local/cudamenunjuk ke CUDA 12.8
Diperbarui di bawah env vars:
LD_LIBRARY_PATH memiliki/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib
PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.
Pemasang EFA: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal
Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.
AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws
Jenis volume EBS: gp3
Python:/3.9 usr/bin/python
NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme
Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Pemberitahuan
Toolkit Kontainer NVIDIA 1.17.4
Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Kebijakan Support
AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam
Instans P6-B200
Instans P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
Instans P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e
Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
-
Versi kernel disematkan menggunakan perintah:
sudo dnf versionlock kernel*
-
Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
sudo dnf versionlock delete kernel* sudo dnf update -y
Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.
Tanggal Rilis: 2025-05-15
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515
Ditambahkan
Menambahkan dukungan untuk instance P6-B200 EC2
Diperbarui
Installer EFA yang ditingkatkan dari versi 1.38.1 ke 1.40.0
Upgrade GDRCopy dari versi 2.4 ke 2.5
Plugin AWS OFI NCCL yang ditingkatkan dari versi 1.13.0-aws ke 1.14.2-aws
Diperbarui dikompilasi Versi NCCL dari versi 2.25.1 ke 2.26.5
Diperbarui versi CUDA default dari versi 12.6 ke 12.8
Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3
Tanggal Rilis: 2025-04-22
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421
Diperbarui
Tanggal Rilis: 2025-03-31
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328
Ditambahkan
Menambahkan dukungan untuk NVIDIA GPU Direct Storage (GDS)
Tanggal Rilis: 2025-02-17
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215
Diperbarui
Diperbarui NVIDIA Container Toolkit dari versi 1.17.3 ke versi 1.17.4
Silakan lihat halaman catatan rilis di sini untuk informasi lebih lanjut: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Di Container Toolkit versi 1.17.4, pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Dihapus
Pustaka ruang pengguna yang dihapus cuobj dan nvdisasm disediakan oleh toolkit NVIDIA CUDA untuk mengatasi yang CVEs ada di Buletin Keamanan NVIDIA CUDA Toolkit
untuk 18 Februari 2025
Tanggal Rilis: 2025-02-05
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205
Ditambahkan
Ditambahkan CUDA toolkit versi 12.6 di direktori/-12.6 usr/local/cuda
Menambahkan dukungan untuk Instans G5 EC2
Dihapus
CUDA versi 12.1 dan 12.2 telah dihapus dari DLAMI ini. Pelanggan yang membutuhkan versi toolkit CUDA ini dapat menginstalnya langsung dari NVIDIA menggunakan tautan di bawah ini
Tanggal Rilis: 2025-02-03
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131
Diperbarui
Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0
EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.
Toolkit Kontainer Nvidia yang ditingkatkan dari 1.17.3 ke 1.17.4
Tanggal Rilis: 2025-01-08
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107
Diperbarui
Menambahkan dukungan untuk instance G4dn
Tanggal Rilis: 2024-12-09
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206
Diperbarui
Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.17.0 ke 1.17.3
Tanggal Rilis: 2024-11-21
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121
Ditambahkan
Menambahkan dukungan untuk Instans P5en EC2 .
Diperbarui
Installer EFA yang ditingkatkan dari versi 1.35.0 ke 1.37.0
Tingkatkan Plugin AWS OFI NCCL dari versi 1.121-aws ke 1.13.0-aws
Tanggal Rilis: 2024-10-30
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030
Ditambahkan
Rilis awal Deep Learning Base OSS DLAMI untuk Amazon Linux 2023
Masalah yang Diketahui
DLAMI ini tidak mendukung instans G4dn dan G5 saat ini. EC2 AWS menyadari ketidakcocokan yang dapat mengakibatkan kegagalan inisialisasi CUDA, yang memengaruhi keluarga instans G4dn dan G5 saat menggunakan driver NVIDIA open source bersama dengan kernel Linux versi 6.1 atau yang lebih baru. Masalah ini memengaruhi distribusi Linux seperti Amazon Linux 2023, Ubuntu 22.04 atau yang lebih baru, atau SUSE Linux Enterprise Server 15 SP6 atau yang lebih baru, antara lain.