AWS Basis Pembelajaran Mendalam AMI (Amazon Linux 2) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Basis Pembelajaran Mendalam AMI (Amazon Linux 2)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Basis Pembelajaran Mendalam OSS Nvidia Driver AMI (Amazon Linux 2) Versi $ {XX.X}

  • Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi $ {XX.X}

EC2 Contoh yang didukung

  • Silakan lihat Perubahan penting pada DLAMI.

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Amazon Linux 2

  • Arsitektur Komputasi: x86

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux: 5.10

    • Docker

    • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Python:/3.7 usr/bin/python

  • Pengemudi NVIDIA:

    • Pengemudi OSS Nvidia: 550.163.01

    • Driver Nvidia eksklusif: 550.163.01

  • Tumpukan NVIDIA CUDA 12.1-12.4:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

    • CUDA standar: 12.1

      • PATH/usr/local/cudamenunjuk ke CUDA 12.1

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH untuk memiliki/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

    • Versi NCCL yang dikompilasi: 2.22.3

    • Lokasi Tes NCCL:

      • all_reduce, all_gather dan reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH harus melewati pembaruan di bawah ini.

        • Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.38.0

  • Nvidia GDRCopy: 2.4

  • AWS NCCL: 1.13.2

    • AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal

    • Jalur instalasi:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 ditambahkan ke LD_LIBRARY_PATH.

  • Jenis volume EBS: gp3

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Pengemudi Nvidia Berpemilik:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Pengemudi Nvidia Berpemilik:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

Toolkit Kontainer NVIDIA 1.17.4

Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.

Pembaruan EFA dari 1.37 ke 1.38 (Rilis pada 2025-02-04)

EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

Kebijakan Support

AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

EC2 contoh dengan beberapa kartu jaringan
  • Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.

  • DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.

    • Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.

    • Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.

    • Untuk informasi lebih lanjut, lihat Panduan EFA di sini.

Contoh P5/P5e
  • Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
  • P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah:

    sudo yum versionlock kernel*
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    sudo yum versionlock delete kernel* sudo yum update -y
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-04-22

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 69.3

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 67.0

Diperbarui

Tanggal Rilis: 2025-02-17

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 68.5

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 66.3

Diperbarui

Dihapus

Tanggal Rilis: 2025-02-04

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 68.4

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 66.1

Diperbarui

  • Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0

Tanggal Rilis: 2025-01-17

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 68.3

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 66.0

Diperbarui

Tanggal Rilis: 2025-01-06

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 68.2

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 65.9

Diperbarui

  • EFA yang ditingkatkan dari versi 1.34.0 ke 1.37.0

  • Upgrade AWS OFI NCCL dari versi 1.11.0 ke 1.13.0

Tanggal Rilis: 2024-12-09

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 68.1

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 65.8

Diperbarui

  • Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.17.0 ke 1.17.3

Tanggal Rilis: 2024-11-09

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 67.9

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 65.6

Diperbarui

Tanggal Rilis: 2024-10-22

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 67.7

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 65.4

Diperbarui

Tanggal Rilis: 2024-10-03

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver Versi AMI (Amazon Linux 2)

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 65.2

Diperbarui

Tanggal Rilis: 2024-08-27

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 67.0

Diperbarui

Ditambahkan

  • Ditambahkan CUDA toolkit versi 12.4 di direktori/-12.4 usr/local/cuda

  • Menambahkan dukungan untuk instance P5e EC2 .

Dihapus

  • Dihapus CUDA Toolkit versi 11.8 tumpukan hadir di direktori/-11.8 usr/local/cuda

Tanggal Rilis: 2024-08-19

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 66.3

Ditambahkan

  • Menambahkan dukungan untuk instance G6e EC2 .

Tanggal Rilis: 2024-06-06

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 65.4

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 63.9

Diperbarui

  • Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08

Tanggal Rilis: 2024-05-02

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 64.7

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 63.2

Diperbarui

  • Diperbarui versi EFA dari versi 1.30 ke versi 1.32

  • Diperbarui plugin AWS OFI NCCL dari versi 1.7.4 ke versi 1.9.1

  • Toolkit kontainer Nvidia yang diperbarui dari versi 1.13.5 ke versi 1.15.0

Ditambahkan

  • Ditambahkan CUDA12 .3 tumpukan CUDA12 dengan.3, NCCL 2.21.5, cuDNN 8.9.7

    Versi 1.15.0 TIDAK menyertakan paket nvidia-container-runtime dan nvidia-docker2. Disarankan untuk menggunakan nvidia-container-toolkit paket secara langsung dengan mengikuti dokumen toolkit kontainer Nvidia.

Dihapus

  • Menghapus tumpukan CUDA11 .7, CUDA12 .0 yang ada di/-12.0 usr/local/cuda-11.7 and /usr/local/cuda

  • Menghapus paket nvidia-docker2 dan perintahnya nvidia-docker sebagai bagian dari pembaruan toolkit kontainer Nvidia dari 1.13.5 ke 1.15.0 yang TIDAK menyertakan paket dan nvidia-docker2. nvidia-container-runtime

Tanggal Rilis: 2024-04-04

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 64.0

Ditambahkan

  • Untuk driver OSS Nvidia DLAMIs, menambahkan dukungan instans G6 dan EC2 Gr6

Tanggal Rilis: 2024-03-29

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 62.3

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 63.2

Diperbarui

  • Driver Nvidia yang diperbarui dari 535.104.12 ke 535.161.08 di driver Proprietary dan OSS Nvidia. DLAMIs

  • Instans baru yang didukung untuk setiap DLAMI adalah sebagai berikut:

    • Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn

    • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, P4d, P4de, P5.

Dihapus

  • Dukungan EC2 instans G4dn, G5, G3.16x yang dihapus dari DLAMI driver Nvidia Proprietary.

Tanggal Rilis: 2024-03-20

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 63.1

Ditambahkan

  • Menambahkan awscliv2 di AMI sebagai usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws /pada OSS Nvidia Driver AMI

Tanggal Rilis: 2024-03-13

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 63.0

Diperbarui

  • DLAMI driver OSS Nvidia yang diperbarui dengan dukungan G4dn dan G5, berdasarkan dukungan saat ini terlihat seperti di bawah ini:

    • Driver Nvidia Proprietary Deep Learning Base AMI (Amazon Linux 2) mendukung P3, P3dn, G3, G4dn, G5.

    • Basis Pembelajaran Mendalam OSS Nvidia Driver AMI (Amazon Linux 2) mendukung G4dn, G5, P4, P5.

  • Driver OSS Nvidia DLAMIs direkomendasikan untuk digunakan untuk G4dn, G5, P4, P5.

Tanggal Rilis: 2024-02-13

Nama AMI
  • Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 62.1

  • Driver Nvidia Proprietary Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 62.1

Diperbarui

  • Diperbarui driver OSS Nvidia dari 535.129.03 ke 535.154.05

  • Diperbarui EFA dari 1.29.0 ke 1.30.0

  • AWS OFI NCCL yang diperbarui dari 1.7.3-aws ke 1.7.4-aws

Tanggal Rilis: 2024-02-01

Nama AMI: Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Versi 62.0

Keamanan

Versi 61.4

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 61.4

Diperbarui

  • OSS Nvidia Driver diperbarui dari 535.104.12 ke 535.129.03

Versi 61.0

Nama AMI: Basis Pembelajaran Mendalam OSS Driver Nvidia AMI (Amazon Linux 2) Versi 61.4

Diperbarui

  • EFA diperbarui dari 1.26.1 ke 1.29.0

  • GDRCopy diperbarui dari 2.3 ke 2.4

Ditambahkan

  • AWS Deep Learning AMI (DLAMI) dibagi menjadi dua kelompok terpisah:

    • DLAMI yang menggunakan Nvidia Proprietary Driver (untuk mendukung P3, P3dn, G3, G5, G4dn).

    • DLAMI yang menggunakan Nvidia OSS Driver untuk mengaktifkan EFA (untuk mendukung P4, P5).

  • Silakan merujuk ke pengumuman publik untuk informasi lebih lanjut tentang DLAMI split.

  • Untuk AWS CLI kueri, lihat bullet point Query AMI-ID AWSCLI dengan (contoh Region is us-east-1)

Versi 60.6

Nama AMI: Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 60.6

Diperbarui

  • AWS OFI NCCL Plugin diperbarui dari versi 1.7.2 ke versi 1.7.3

  • Direktori CUDA 12.0-12.1 yang diperbarui dengan NCCL versi 2.18.5

  • CUDA12.1 diperbarui sebagai Versi CUDA default

    • Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Untuk pelanggan yang ingin mengubah ke versi CUDA yang berbeda, harap tentukan variabel LD_LIBRARY_PATH dan PATH yang sesuai.

Ditambahkan

  • Kernel Live Patching sekarang diaktifkan. Live patching memungkinkan pelanggan untuk menerapkan kerentanan keamanan dan patch bug kritis ke kernel Linux yang sedang berjalan, tanpa reboot atau gangguan pada aplikasi yang sedang berjalan. Harap dicatat bahwa dukungan patching langsung untuk kernel 5.10.192 akan berakhir pada 11/30/23.

Versi 60.5

Nama AMI: Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 60.5

Diperbarui

  • Driver NVIDIA diperbarui dari 535.54.03 ke 535.104.12

    Driver terbaru ini memperbaiki perubahan kerusakan NVMLABI yang ditemukan di driver 535.54.03, serta regresi driver yang ditemukan di driver 535.86.10 yang memengaruhi toolkit CUDA pada instance P5. Silakan referensi catatan rilis NVIDIA berikut untuk rincian tentang perbaikan:

    • 4235941 - Perbaikan perubahan NVMLABI Breaking

    • 4228552 - Perbaikan Kesalahan CUDA Toolkit

  • Direktori CUDA 12.2 yang diperbarui dengan NCCL 2.18.5

  • EFA diperbarui dari 1.24.1 ke 1.26.1 terbaru

Ditambahkan

  • Ditambahkan CUDA12 .2 di/usr/local/cuda-12.2

Dihapus

  • Dukungan yang dihapus untuk CUDA 11.5 dan CUDA 11.6

Versi 60.2

Nama AMI: Basis Pembelajaran Mendalam AMI (Amazon Linux 2) Versi 60.2

Diperbarui

  • Diperbarui aws-ofi-nccl plugin dari v1.7.1 untuk v1.7.2

Versi 60.0

Tanggal rilis: 2023-08-11

Ditambahkan

  • AMI ini sekarang menyediakan dukungan untuk fungsionalitas pelatihan Multi-node pada P5 dan semua instans yang didukung sebelumnya EC2

  • Untuk EC2 instance P5, NCCL 2.18 direkomendasikan untuk digunakan dan telah ditambahkan ke CUDA12 .0, dan .1. CUDA12

Dihapus

  • Dihapus dukungan untuk CUDA11 .5.

Versi 59.2

Tanggal rilis: 2023-08-08

Dihapus

  • Dihapus CUDA-11.3 dan CUDA-11.4

Versi 59.1

Tanggal rilis: 2023-08-03

Diperbarui

  • Diperbarui AWS plugin OFI NCCL ke v1.7.1

  • Membuat CUDA11 .8 sebagai default karena PyTorch 2.0 mendukung 11.8 dan untuk EC2 instance P5, disarankan untuk menggunakan >= .8 CUDA11

    • Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Untuk versi cuda yang berbeda, harap tentukan LD_LIBRARY_PATH yang sesuai.

Tetap

  • Memperbaiki masalah pemuatan paket Nvidia Fabric Manager (FM) yang disebutkan di Tanggal Rilis sebelumnya 2023-07-19.

Versi 58.9

Tanggal rilis: 2023-07-19

Diperbarui

  • Driver Nvidia yang diperbarui dari 525.85.12 ke 535.54.03

  • Diperbarui installer EFA dari 1.22.1 ke 1.24.1

Ditambahkan

  • Menambahkan perubahan c-state untuk menonaktifkan status idle prosesor dengan menyetel c-state maks ke C1. Perubahan ini dilakukan dengan menyetel `intel_idle.max_cstate=1 processor.max_cstate=1` dalam argumen boot linux di file/etc/default/grub

  • AWS EC2 Dukungan instance P5:

    • Ditambahkan P5 dukungan EC2 instance untuk alur kerja menggunakan node/instance tunggal. Dukungan multi-node (misalnya untuk pelatihan multi-node) menggunakan EFA (Elastic Fabric Adapter) dan plugin AWS OFI NCCL akan ditambahkan dalam rilis mendatang.

    • Silakan gunakan CUDA> = 11.8 untuk kinerja optimal.

    • Masalah yang Diketahui: Paket Nvidia Fabric Manager (FM) membutuhkan waktu untuk memuat pada P5, pelanggan harus menunggu selama 2-3 menit hingga FM dimuat setelah meluncurkan instans P5. Untuk memeriksa apakah FM dimulai, jalankan perintah sudo systemctl is-active nvidia-fabricmanager, itu harus kembali aktif sebelum memulai alur kerja apa pun. Ini akan diperbaiki dalam rilis mendatang.

Versi 58.0

Tanggal rilis: 2023-05-19

Dihapus

  • Menghapus CUDA11 tumpukan.0-11.2 sesuai kebijakan dukungan yang disebutkan di bagian atas dokumen ini.

Versi 57.3

Tanggal rilis: 2023-04-06

Ditambahkan

  • Menambahkan Nvidia GDRCopy 2.3

Versi 56.8

Tanggal rilis: 2023-03-09

Diperbarui

  • Diperbarui driver NVIDIA dari 515.65.01 ke 525.85.12

Ditambahkan

  • Ditambahkan cuda-11.8 di/-11.8/usr/local/cuda

Versi 56.0

Tanggal rilis: 2022-12-06

Diperbarui

  • Versi EFA yang diperbarui dari 1.17.2 ke 1.19.0

Versi 55.0

Tanggal rilis: 2022-11-04

Diperbarui

  • Diperbarui driver NVIDIA dari 510.47.03 ke 515.65.01

Ditambahkan

  • Ditambahkan cuda-11.7 di/-11.7/usr/local/cuda

Versi 54.0

Tanggal rilis: 2022-09-15

Diperbarui

  • Diperbarui versi EFA dari 1.16.0 ke 1.17.2

Versi 53.3

Tanggal rilis: 2022-05-25

Diperbarui

  • Diperbarui aws-efa-installer ke versi 1.15.2

  • Diperbarui aws-ofi-nccl ke versi 1.3.0-aws yang menyertakan topologi untuk p4de.24xlarge.

Ditambahkan

  • Rilis ini menambahkan dukungan untuk instance EC2 p4de.24xlarge.

Versi 53.0

Tanggal rilis: 2022-04-28

Ditambahkan

  • Ditambahkan Amazon CloudWatch Agent

  • Menambahkan tiga layanan systemd yang menggunakan file json standar yang tersedia di pathopt/aws/amazon-cloudwatch-agent/etc//untuk mengkonfigurasi metrik GPU menggunakan cwagent pengguna linux

    • dlami-cloudwatch-agent@minimal

      • Perintah untuk mengaktifkan metrik GPU:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Ini menciptakan metrik ini:utilization_gpu, utilization_memory

    • dlami-cloudwatch-agent@partial

      • Perintah untuk mengaktifkan metrik GPU:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Ini menciptakan metrik ini:utilization_gpu,,utilization_memory,memory_total, memory_used memory_free

    • dlami-cloudwatch-agent@all

      • Perintah untuk mengaktifkan metrik GPU:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Ini menciptakan semua metrik GPU yang tersedia

Versi 52.0

Tanggal rilis: 2022-03-08

Diperbarui

  • Diperbarui versi Kernel ke 5.10

Versi 51.0

Tanggal rilis: 2022-03-04

Diperbarui

  • Driver Nvidia yang Diperbarui ke 510.47.03

Versi 50.0

Tanggal rilis: 2022-02-17

Diperbarui

  • Terkunci aws-neuron-dkms dan tensorflow-model-server-neuron saat diperbarui ke versi yang lebih baru yang tidak didukung oleh paket Neuron yang ada di AMI

    • Perintah jika pelanggan ingin membuka kunci paket untuk memperbaruinya ke yang terbaru: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Versi 49.0

Tanggal rilis: 2022-01-13

Ditambahkan

  • Ditambahkan CUDA11 .2 dengan komponen-komponen berikut:

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Diperbarui

  • Symlink pip yang diperbarui ke pip3

penghentian

  • Dukungan usang untuk jenis instans P2

  • Python2.7 usang dan menghapus paket python2.7 terkait seperti “python-dev”, “python-pip”, dan “python-tk”

Versi 48.0

Tanggal rilis: 2021-12-27

Diperbarui

Versi 47.0

Tanggal rilis: 2021-11-24

Diperbarui

  • Diperbarui EFA ke 1.14.1

Versi 46.0

Tanggal rilis: 2021-11-12

Diperbarui

  • Paket Neuron yang diperbarui dari aws-neuron-dkms =1.5. *, aws-neuron-runtime-base = 1,5. *, aws-neuron-tools =1.6.* hingga =2.2. aws-neuron-dkms *, aws-neuron-runtime-base = 1,6. *, aws-neuron-tools = 2.0.*.

  • Paket Neuron yang dihapus aws-neuron-runtime =1.5.* karena Neuron tidak lagi memiliki runtime yang berjalan sebagai daemon dan runtime sekarang terintegrasi dengan kerangka kerja sebagai perpustakaan.

Versi 45.0

Tanggal rilis: 2021-10-21

Ditambahkan

  • Laporan pemindaian keamanan dalam format JSON tersedia di/opt/aws/dlami/info/.

Versi 44.0

Tanggal rilis: 2021-10-08

Berubah

  • Untuk setiap peluncuran instance menggunakan DLAMI, tag aws-dlami-autogenerated-tag "do-not-delete-" akan ditambahkan yang akan AWS memungkinkan untuk mengumpulkan jenis instance, ID instance, jenis DLAMI, dan informasi OS. Tidak ada informasi tentang perintah yang digunakan dalam DLAMI yang dikumpulkan atau disimpan. Tidak ada informasi lain tentang DLAMI yang dikumpulkan atau disimpan. Untuk memilih keluar dari pelacakan penggunaan untuk DLAMI Anda, tambahkan tag ke instans EC2 Amazon Anda selama peluncuran. Tag harus menggunakan kunci OPT_OUT_TRACKING dengan nilai terkait disetel ke true. Untuk informasi selengkapnya, lihat Menandai EC2 sumber daya Amazon Anda.

Keamanan

  • Diperbarui versi docker ke docker-20.10.7-3

Versi 43.0

Tanggal rilis: 2021-08-24

Berubah

  • Diperbarui “notebook” ke versi “6.4.1".

Versi 42.0

Tanggal rilis: 2021-07-23

Berubah

  • Diperbarui driver Nvidia dan versi manajer Fabric ke 450.142.00.

Versi 41.0

Tanggal rilis: 2021-06-24

Berubah

  • Paket Neuron yang diperbarui sesuai Rilis Neuron v1.14.0

Versi 40.0

Tanggal rilis: 2021-06-10

Berubah

  • Diperbarui versi awscli ke 1.19.89

Versi 39.0

Tanggal rilis: 2021-05-27

Keamanan

  • Menghapus komponen CUDA-10.0 yang rentan (Visual Profiler, Nsight EE, dan JRE) dari instalasi CUDA-10.0 (/-10.0). usr/local/cuda

Versi 38.0

Tanggal rilis: 2021-05-25

Berubah

  • Runc yang ditingkatkan ke yang terbaru

Versi 37.0

Tanggal rilis: 2021-04-23

Berubah

  • Diperbarui driver Nvidia Tesla dan versi Fabric Manager ke 450.119.03.

Versi 36.1

Tanggal rilis: 2021-04-21

Tetap

  • Memperbaiki masalah yang memperlambat kecepatan peluncuran instance.

Versi 36.0

Tanggal rilis: 2021-03-24

Ditambahkan

  • Ditambahkan tensorflow-model-server-neuron untuk mendukung penyajian model neuron.

Berubah

  • Upgrade jupyterlab ke versi 3.0.8 untuk python3.

Tetap

  • Instalasi lama OpenMPI diusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/tersedia.

  • Hapus definisi lingkungan shell yang diduplikasi dan tidak ada yang telah mencemari variabel lingkungan shell seperti PATH, dan LD_LIBRARY_PATH. Akibatnya, ~/.dlami, dan/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh telah ditambahkan.

Keamanan

Versi 35.0

Tanggal rilis: 2021-03-08

Ditambahkan

Versi 34.3

Tanggal rilis: 2021-02-25

Tetap

  • Memperbaiki kesalahan ketik di MOTD (pesan hari ini) yang salah menampilkan versi 34.1.

Versi 34.2

Tanggal rilis: 2021-02-24

Keamanan

  • Python2 dan python3 yang ditambal untuk CVE-2021-3177

Masalah yang Diketahui

  • Ada kesalahan ketik di MOTD (pesan hari ini) yang salah menampilkan versi 34.1, kami akan merilis versi 34.3 untuk mengatasi masalah ini.

Versi 34.0

Tanggal rilis: 2021-02-09

Berubah

  • Pip disematkan ke versi 20.3.4 untuk python2, ini adalah versi pip terakhir yang mendukung python2, dan python3.5.

Versi 33.0

Tanggal rilis: 2021-01-19

Berubah

  • Diperbarui versi cuDNN ke v8.0.5.39 di.0 dan .1. CUDA11 CUDA11

Versi 32.0

Tanggal rilis: 2020-12-01

Ditambahkan

  • Ditambahkan CUDA11 .1 dengan NCCL 2.7.8, cuDNN 8.0.4.30 untuk AMI Pembelajaran Mendalam (Amazon Linux 2), AMI Pembelajaran Mendalam (Ubuntu 16.04), AMI Pembelajaran Mendalam (Ubuntu 18.04), Basis Pembelajaran Mendalam AMI (Ubuntu 16.04), Basis Pembelajaran Mendalam AMI (Ubuntu 18.04), Basis Pembelajaran Mendalam AMI (Amazon Linux 2).

Versi 31.0

Tanggal rilis: 2020-11-02

Berubah

  • Installer EFA yang ditingkatkan ke versi 1.10.0.

  • Versi cuDNN yang ditingkatkan ke v8.0.4.30 untuk CUDA 11.0.

  • AWS Neuron yang ditingkatkan ke versi 1.1

Versi 30.0

Tanggal rilis: 2020-10-08

Berubah

  • Versi NVIDIA Driver dan Fabric Manager yang diperbarui ke 450.80.02

  • Diperbarui NCCL ke 2.7.8 untuk .0 CUDA11

Tetap

  • Memperbaiki masalah saat paket python yang dikelola yum diganti oleh instalasi pipmanaged. Pip, pip3, dan pip3.7 yang dapat dieksekusi telah dipindahkan dari/bagian dari perbaikan ini. usr/binto /usr/local/binas

Versi 29.0

Tanggal rilis: 2020-09-11

Berubah

  • Diperbarui driver NVIDIA dari versi 450.51.05 ke 450.51.06

  • Ditambahkan NVIDIA Fabric Manager versi 450.51.06

  • Upgrade EFA ke 1.9.4

Versi 28.0

Tanggal rilis: 2020-08-19

Berubah

  • Menambahkan tumpukan CUDA 11.0 dengan NCCL 2.7.6, dan cuDNN 8.0.2.39

Versi 27.0

Tanggal rilis: 2020-08-07

Berubah

  • EFA yang ditingkatkan dari versi 1.7.1 ke 1.9.3 di/opt/amazon/efa

  • Upgrade Open MPI dari versi 4.0.3 ke 4.0.4 di '/ 'usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirunmasih di versi 4.0.3

  • Diperbarui Driver NVIDIA dari 440.33.01 ke 450.51.05

  • Versi NCCL yang ditingkatkan dari 2.6.4 ke 2.7.6 di 0.2 CUDA1

Versi 26.0

Tanggal rilis: 2020-08-03

Berubah

  • Upgrade AWS OFI NCCL ke yang terbaru, lihat di sini untuk detail lebih lanjut.

  • Cuda 8.0/9.0/9.2 telah dihapus dari AMI

Tetap

  • Memperbaiki kesalahan di mana file objek bersama: libopencv_dnn.so.4.2 tidak dapat dibuka.

Versi 25.0

Tanggal rilis: 2020-07-19

Berubah

  • Versi EFA diperbarui ke 1.7.1 untuk mendukung NCCL 2.6.4

  • Versi NCCL diperbarui ke 2.6.4 untuk CUDA 10.2

  • versi awscli diperbarui dari 1.16.76 ke 1.18.80

  • boto3 versi diperbarui dari 1.9.72 ke 1.14.3

Versi 24.1

Tanggal rilis: 2020-06-14

Berubah

  • Versi Docker diperbarui ke 19.03.6

Versi 24.0

Tanggal rilis: 2020-05-20

Berubah

  • Versi Docker diperbarui ke 19.03.6

Versi 23.0

Tanggal rilis: 2020-04-29

Berubah

  • Versi paket python yang ditingkatkan

Versi 22.0

Tanggal rilis: 2020-03-04

Berubah

  • Ditambahkan CUDA 10.2 tumpukan

  • CUDA 10.0 dan 10.1 yang diperbarui untuk versi cuDNN dan NCCL