AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 24.04) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 24.04)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

  • Silakan lihat Perubahan penting pada DLAMI.

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Ubuntu 24.04

  • Arsitektur Komputasi: x86

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux: 6. 8

    • FSx Kilau

    • Docker

    • AWS CLI v2 di/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Pengemudi NVIDIA: 570.133.20

  • NVIDIA CUDA 12.6 dan 12.8 tumpukan:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

      • Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versi NCCL yang dikompilasi: 2.25.1

    • CUDA standar: 12.8

      • PATH/usr/local/cudamenunjuk ke CUDA 12.8

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.40.0

  • Nvidia GDRCopy: 2.5.1

  • AWS OFI NCCL: 1.14.2-aws

    • Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.

  • AWS CLI v2 di/usr/bin/aws

  • Jenis volume EBS: gp3

  • Python:/3.12 usr/bin/python

  • NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

Kebijakan Support

AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

EC2 misalnya dengan beberapa kartu jaringan
  • Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.

  • DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.

    • Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.

    • Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.

    • Untuk informasi lebih lanjut, lihat Panduan EFA di sini.

Instans P6-B200

Instans P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en

P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e

Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-05-22

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522

Ditambahkan

Diperbarui

  • Installer EFA yang ditingkatkan dari versi 1.40.0 ke 1.41.0

  • Diperbarui dikompilasi Versi NCCL dari versi 2.25.1 ke 2.26.5

  • Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3

Tanggal Rilis: 2025-05-13

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513

Ditambahkan

  • Rilis awal dari Deep Learning Base OSS DLAMI untuk Ubuntu 24.04