Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 24.04)
Untuk bantuan memulai, lihatMemulai dengan DLAMI.
Format nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) $ {YYYY-MM-DD}
EC2 Contoh yang didukung
Silakan lihat Perubahan penting pada DLAMI.
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.
AMI meliputi yang berikut:
AWS Layanan yang Didukung: Amazon EC2
Sistem Operasi: Ubuntu 24.04
Arsitektur Komputasi: x86
Versi terbaru yang tersedia diinstal untuk paket-paket berikut:
Kernel Linux: 6. 8
FSx Kilau
Docker
AWS CLI v2 di/usr/bin/aws
NVIDIA DCGM
Toolkit wadah Nvidia:
Perintah versi: nvidia-container-cli -V
NVIDIA-Docker2:
Perintah versi: versi nvidia-docker
Pengemudi NVIDIA: 570.133.20
NVIDIA CUDA 12.6 dan 12.8 tumpukan:
Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda
Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Versi NCCL yang dikompilasi: 2.25.1
CUDA standar: 12.8
PATH/usr/local/cudamenunjuk ke CUDA 12.8
Diperbarui di bawah env vars:
LD_LIBRARY_PATH memiliki/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.
Pemasang EFA: 1.40.0
Nvidia GDRCopy: 2.5.1
AWS OFI NCCL: 1.14.2-aws
Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.
AWS CLI v2 di/usr/bin/aws
Jenis volume EBS: gp3
Python:/3.12 usr/bin/python
NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme
Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Pemberitahuan
Kebijakan Support
AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam
EC2 misalnya dengan beberapa kartu jaringan
Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.
DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.
Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.
Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.
Untuk informasi lebih lanjut, lihat Panduan EFA di sini.
Instans P6-B200
Instans P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e
Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Versi kernel disematkan menggunakan perintah:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.
Tanggal Rilis: 2025-05-22
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522
Ditambahkan
Menambahkan dukungan untuk instance P6-B200 EC2
Diperbarui
Installer EFA yang ditingkatkan dari versi 1.40.0 ke 1.41.0
Diperbarui dikompilasi Versi NCCL dari versi 2.25.1 ke 2.26.5
Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3
Tanggal Rilis: 2025-05-13
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513
Ditambahkan
Rilis awal dari Deep Learning Base OSS DLAMI untuk Ubuntu 24.04