AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 22.04) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 22.04)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

  • Silakan lihat Perubahan penting pada DLAMI.

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Ubuntu 22.04

  • Arsitektur Komputasi: x86

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux: 6. 8

    • FSx Kilau

    • Docker

    • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Pengemudi NVIDIA: 570.133.20

  • NVIDIA CUDA 12.4-12.6 dan 12.8 tumpukan:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

      • Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versi NCCL yang dikompilasi: 2.26.5

    • CUDA standar: 12.8

      • PATH/usr/local/cudamenunjuk ke CUDA 12.8

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.40.0

  • Nvidia GDRCopy: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.

  • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

  • Jenis volume EBS: gp3

  • Python:/3.10 usr/bin/python

  • NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

Toolkit Kontainer NVIDIA 1.17.4

Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.

Pembaruan EFA dari 1.37 ke 1.38 (Rilis pada 2025-01-31)

EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

Dukungan Multi ENI
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Kebijakan Support

AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

EC2 contoh dengan beberapa kartu jaringan
  • Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.

  • DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.

    • Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.

    • Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.

    • Untuk informasi lebih lanjut, lihat Panduan EFA di sini.

Instans P6-B200

P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en

P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e

Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-05-16

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Ditambahkan

  • Menambahkan dukungan untuk instance P6-B200 EC2

Diperbarui

  • Installer EFA yang ditingkatkan dari versi 1.39.0 ke 1.40.0

  • Tingkatkan Plugin AWS OFI NCCL dari versi 1.13.0-aws ke 1.14.2-aws

  • Diperbarui dikompilasi Versi NCCL dari versi 2.22.3 ke 2.26.5

  • Diperbarui versi CUDA default dari versi 12.6 ke 12.8

  • Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3

Tanggal Rilis: 2025-05-05

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Diperbarui

  • Upgrade GDRCopy dari 2.4.1 ke 2.5.1

Tanggal Rilis: 2025-04-24

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Diperbarui

Tanggal Rilis: 2025-02-17

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Diperbarui

Dihapus

Tanggal Rilis: 2025-02-07

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Ditambahkan

  • Ditambahkan CUDA toolkit versi 12.6 di direktori/-12.6 usr/local/cuda

Dihapus

Tanggal Rilis: 2025-01-31

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Diperbarui

  • Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0

    • EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

  • Toolkit Kontainer Nvidia yang ditingkatkan dari 1.17.3 ke 1.17.4

Tanggal Rilis: 2025-01-17

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Diperbarui

Tanggal Rilis: 2024-11-18

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Ditambahkan

  • FSx Paket Amazon untuk dukungan Lustre ditambahkan.

Tetap

  • Karena perubahan kernel Ubuntu untuk mengatasi cacat pada fungsionalitas Kernel Address Space Layout Randomization (KASLR), instance G4Dn/G5 tidak dapat menginisialisasi CUDA dengan benar pada driver OSS Nvidia. Untuk mengurangi masalah ini, DLAMI ini menyertakan fungsionalitas yang secara dinamis memuat driver berpemilik untuk instans G4Dn dan G5. Harap izinkan periode inisialisasi singkat untuk pemuatan ini untuk memastikan bahwa instans Anda dapat berfungsi dengan baik.

    Untuk memeriksa status dan kesehatan layanan ini, Anda dapat menggunakan perintah berikut:

sudo systemctl is-active dynamic_driver_load.service active

Tanggal Rilis: 2024-10-23

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Diperbarui

Tanggal Rilis: 2024-10-01

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Diperbarui

Ditambahkan

  • Ditambahkan CUDA toolkit versi 12.4 di direktori/-12.4 usr/local/cuda

  • Menambahkan dukungan untuk instance P5e EC2 .

Tanggal Rilis: 2024-08-19

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Ditambahkan

  • Ditambahkan dukungan untuk contoh G6e EC2 .

Tanggal Rilis: 2024-06-06

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Diperbarui

  • Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08

Tanggal Rilis: 2024-05-15

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Dihapus

  • Amazon FSx untuk dukungan Lustre telah dihapus dalam rilis ini karena ketidakcocokan dengan versi kernel Ubuntu 22.04 terbaru. Support FSx for for Lustre akan dipulihkan setelah versi kernel terbaru didukung. Pelanggan yang membutuhkan FSx Lustre harus terus menggunakan Deep Learning Base GPU AMI (Ubuntu 20.04).

Tanggal Rilis: 2024-04-29

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Ditambahkan

  • Rilis awal dari Deep Learning Base OSS DLAMI untuk Ubuntu 22.04