AWS GPU Basis Pembelajaran Mendalam AMI (Amazon Linux 2023) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS GPU Basis Pembelajaran Mendalam AMI (Amazon Linux 2023)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instans yang Didukung

  • Silakan lihat Perubahan penting pada DLAMI

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Amazon Linux 2023

  • Arsitektur Komputasi: x86

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux: 6.1

    • FSx Kilau

    • NVIDIA GDS

    • Docker

    • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Pengemudi NVIDIA: 570.133.20

  • NVIDIA CUDA 12.4-12.6 dan 12.8 tumpukan:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

      • Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versi NCCL yang dikompilasi: 2.26.5

    • CUDA standar: 12.8

      • PATH/usr/local/cudamenunjuk ke CUDA 12.8

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib

        • PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.40.0

  • Nvidia GDRCopy: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal

    • Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH.

  • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

  • Jenis volume EBS: gp3

  • Python:/3.9 usr/bin/python

  • NVMe Lokasi Penyimpanan Instance (pada EC2 instance yang Didukung):/opt/dlami/nvme

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

Toolkit Kontainer NVIDIA 1.17.4

Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.

Kebijakan Support

AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

Instans P6-B200

Instans P6-B200 berisi 8 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en

Instans P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5/P5e

Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah:

    sudo dnf versionlock kernel*
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-05-15

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515

Ditambahkan

Diperbarui

  • Installer EFA yang ditingkatkan dari versi 1.38.1 ke 1.40.0

  • Upgrade GDRCopy dari versi 2.4 ke 2.5

  • Plugin AWS OFI NCCL yang ditingkatkan dari versi 1.13.0-aws ke 1.14.2-aws

  • Diperbarui dikompilasi Versi NCCL dari versi 2.25.1 ke 2.26.5

  • Diperbarui versi CUDA default dari versi 12.6 ke 12.8

  • Diperbarui versi Nvidia DCGM dari 3.3.9 ke 4.4.3

Tanggal Rilis: 2025-04-22

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Diperbarui

Tanggal Rilis: 2025-03-31

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328

Ditambahkan

Tanggal Rilis: 2025-02-17

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215

Diperbarui

Dihapus

Tanggal Rilis: 2025-02-05

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205

Ditambahkan

  • Ditambahkan CUDA toolkit versi 12.6 di direktori/-12.6 usr/local/cuda

  • Menambahkan dukungan untuk Instans G5 EC2

Dihapus

Tanggal Rilis: 2025-02-03

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131

Diperbarui

  • Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0

    • EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

  • Toolkit Kontainer Nvidia yang ditingkatkan dari 1.17.3 ke 1.17.4

Tanggal Rilis: 2025-01-08

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107

Diperbarui

  • Menambahkan dukungan untuk instance G4dn

Tanggal Rilis: 2024-12-09

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206

Diperbarui

  • Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.17.0 ke 1.17.3

Tanggal Rilis: 2024-11-21

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121

Ditambahkan

  • Menambahkan dukungan untuk Instans P5en EC2 .

Diperbarui

  • Installer EFA yang ditingkatkan dari versi 1.35.0 ke 1.37.0

  • Tingkatkan Plugin AWS OFI NCCL dari versi 1.121-aws ke 1.13.0-aws

Tanggal Rilis: 2024-10-30

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030

Ditambahkan

  • Rilis awal Deep Learning Base OSS DLAMI untuk Amazon Linux 2023

Masalah yang Diketahui

  • DLAMI ini tidak mendukung instans G4dn dan G5 saat ini. EC2 AWS menyadari ketidakcocokan yang dapat mengakibatkan kegagalan inisialisasi CUDA, yang memengaruhi keluarga instans G4dn dan G5 saat menggunakan driver NVIDIA open source bersama dengan kernel Linux versi 6.1 atau yang lebih baru. Masalah ini memengaruhi distribusi Linux seperti Amazon Linux 2023, Ubuntu 22.04 atau yang lebih baru, atau SUSE Linux Enterprise Server 15 SP6 atau yang lebih baru, antara lain.