AWS Deep Learning Base GPU AMI (Ubuntu 20.04) - AWS Deep Learning AMIs

AWS Deep Learning Base GPU AMI (Ubuntu 20.04)

サポート終了通知

  • Ubuntu Linux 20.04 LTS は、2025 年 5 月 31 日に 5 年間の LTS サポート期間が終了し、ベンダーによるサポートがされなくなりますしたがって、AWS Deep Learning Base GPU AMI (Ubuntu 20.04) は 2025 年 5 月 31 日以降更新されません。以前のリリースは、引き続き利用可能です。一般公開されたすべての AMI は、作成日から 2 年後に EC2 によって非推奨になることに注意してください。詳細については、「Amazon EC2 AMI を非推奨にする」を参照してください。

  • 2025 年 8 月 31 日まで 3 か月間、サポートは機能についての問題 (セキュリティパッチは対象外) に対してのみ提供されます。

  • Ubuntu 20.04 DLAMI のユーザーは、 AWS Deep Learning Base GPU AMI (Ubuntu 22.04) または AWS Deep Learning Base GPU AMI (Ubuntu 24.04) に移行する必要があります。または、AWS Deep Learning Base AMI (Amazon Linux 2023) を使用することもできます。

開始方法については、「DLAMI の使用開始」を参照してください。

AMI 名の形式

  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

  • DLAMI に関する重要な変更」を参照してください。

  • Deep Learning with OSS Nvidia Driver は、G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en をサポートしています

  • Deep Learning with Proprietary Nvidia Driver は G3 (G3.16x はサポートしていません)、P3、P3dn をサポートしています。

AMI には、以下が含まれます。

  • サポートされている AWS のサービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 20.04

  • コンピューティングアーキテクチャ: x86

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux Kernel: 5.15

    • FSx Lustre

    • Docker

    • /usr/local/bin/aws2 の AWS CLIv2 および /usr/bin/aws の AWS CLI v1

    • NVIDIA DCGM

    • NVIDIA Container Toolkit:

      • バージョンコマンド: nvidia-container-cli -V

    • Nvidia-docker2:

      • バージョンコマンド: nvidia-docker バージョン

  • Nvidia Driver:

    • OSS Nvidia Driver: 550.163.01

    • Proprietary Nvidia Driver: 550.163.01

  • NVIDIA CUDA 11.7、12.1~12.4 スタック:

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

      • 例: /usr/local/cuda-12.1/

    • コンパイル済み NCCL バージョン: 2.22.3+CUDA12.4

    • デフォルトの CUDA: 12.1

      • /usr/local/cuda のパスは CUDA 12.1 を指します

      • 以下の環境変数が更新されました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib を設定しました

        • パスに /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ を設定しました

        • 異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を更新してください。

    • NCCL テストの場所:

      • all_reduce、all_gather、および reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL テストを実行するには、LD_LIBRARY_PATH に以下の更新を渡す必要があります。

        • 共通パスは、既に LD_LIBRARY_PATH に追加されています。

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.39.0

  • Nvidia GDRCopy: 2.4

  • AWS OFI NCCL プラグイン: EFA Installer-aws の一部としてインストールされます

    • AWS OFI NCCL は単一ビルドで複数の NCCL バージョンをサポートするようになりました

    • インストールパス: /opt/aws-ofi-nccl/ /opt/aws-ofi-nccl/lib のパスが LD_LIBRARY_PATH に追加されました。

    • ring、message_transfer のテストパス: /opt/aws-ofi-nccl/tests

  • EBS ボリュームタイプ: gp3

  • Python: /usr/bin/python3.9

  • NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme

  • SSM パラメータで AMI-ID をクエリ (例: リージョンは us-east-1):

    • OSS Nvidia Driver:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Proprietary Nvidia Driver:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリ (例: リージョンは us-east-1):

    • OSS Nvidia Driver:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Proprietary Nvidia Driver:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

NVIDIA Container Toolkit: 1.17.4

Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換性レイヤーを使用する場合」のチュートリアルに示されているように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

EFA は 1.37 から 1.38 に更新されました (2025 年 2 月 4 日リリース)

EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/aws-ofi-nccl/ にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

サポートポリシー

この AMI のコンポーネント (CUDA バージョンなど) は、フレームワークサポートポリシーに基づく場合、深層学習コンテナのパフォーマンス最適化のため、または将来のリリースにおける AMI サイズの削減のため、事前の通知なしに削除または変更される場合があります。サポートされているフレームワークバージョンで使用されていない場合、AMI から CUDA バージョンを削除します。

複数のネットワークカードを持つ EC2 インスタンス
  • EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。

  • DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENI の制限値未満の負以外の整数である必要があります。P5 では、NetworkCard あたりの ENI の数は 2 で、DeviceIndex の有効な値は 0 または 1 のみとなります。

    • プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) には EFA (EFA と ENA の組み合わせ) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。

    • 追加のネットワークインターフェイスごとに、次の未使用ネットワークカードインデックス、デバイスインデックス 1、および ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、EFA (EFA と ENA の組み合わせ) または EFA のみのネットワークインターフェイスのいずれかを使用します。ユースケースの例については、P5 インスタンスの EFA 設定を参照してください。

    • 詳細については、こちら の EFA ガイドを参照してください。

P5/P5e インスタンス
  • P5 および P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
  • P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • カーネルバージョンは、次のコマンドを使用して固定されます。

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • インストール済みのドライバーとパッケージバージョンとの互換性を確保するため、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。引き続き更新が必要な場合は、次のコマンドを実行してカーネルバージョンの固定を解除できます。

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025 年 4 月 24 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424

更新

リリース日: 2025 年 2 月 17 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214

更新
  • NVIDIA Container Toolkit がバージョン 1.17.3 からバージョン 1.17.4 に更新されました

    • 詳細については、こちら https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4 のリリースノートページを参照してください。

    • Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換性レイヤーを使用する場合」のチュートリアルに示されているように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

削除済み

リリース日: 2025 年 2 月 4 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204

更新
  • EFA のバージョンが 1.37.0 から 1.38.0 にアップグレードされました

    • EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/aws-ofi-nccl/ にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

削除済み

リリース日: 2025 年 1 月 17 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117

更新

リリース日: 2024 年 12 月 9 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206

更新
  • Nvidia Container Toolkit がバージョン 1.17.0 から 1.17.3 にアップグレードされました

リリース日: 2024 年 11 月 22 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122

追加
  • P5en EC2 インスタンスのサポートが追加されました。

更新
  • EFA インストーラがバージョン 1.35.0 から 1.37.0 にアップグレードされました

  • AWS OFI NCCL プラグインがバージョン 1.12.1-aws から 1.13.0-aws にアップグレードされました

リリース日: 2024 年 10 月 26 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025

更新

リリース日: 2024 年 10 月 3 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927

更新
  • Nvidia Container Toolkit がバージョン 1.16.1 から 1.16.2 にアップグレードされました

リリース日: 2024 年 8 月 27 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827

更新
  • Nvidia ドライバーと Fabric Manager がバージョン 535.183.01 から 550.90.07 にアップグレードされました

  • EFA のバージョンが 1.32.0 から 1.34.0 にアップグレードされました

  • すべての CUDA バージョンで、NCCL が最新バージョンの 2.22.3 にアップグレードされました

    • CUDA 11.7 がバージョン 2.16.2+CUDA11.7 からアップグレードされました

    • CUDA 12.1、12.2 が 2.18.5+CUDA12.2 からアップグレードされました

    • CUDA 12.3 がバージョン 2.21.5+CUDA12.4 からアップグレードされました

追加
  • ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 が追加されました

  • P5e EC2 インスタンスのサポートが追加されました。

削除済み
  • ディレクトリ /usr/local/cuda-11.8 に存在する CUDA Toolkit バージョン 11.8 のスタックを削除しました。

リリース日: 2024 年 8 月 19 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816

追加

リリース日: 2024 年 6 月 6 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606

更新
  • Nvidia ドライバーのバージョンが 535.183.01 から 535.161.08 に更新されました

リリース日: 2024 年 5 月 15 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515

追加
  • PyTorch 1.13 によって CUDA11.7 をサポートするため、CUDA11.7、NCCL 2.16.2、CuDNN 8.7.0 を使用してディレクトリ /usr/local/cuda-11.7 に CUDA11.7 スタックが追加されました

リリース日: 2024 年 5 月 2 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502

更新
  • EFA のバージョンがバージョン 1.30 から 1.32 に更新されました

  • AWS OFI NCCL プラグインがバージョン 1.7.4 からバージョン 1.9.1 に更新されました

  • NVIDIA Container Toolkit がバージョン 1.13.5 からバージョン 1.15.0 に更新されました

    • バージョン 1.15.0 には、nvidia-container-runtime および nvidia-docker2 パッケージは含まれていません。「Nvidia container toolkit docs」を参照して、nvidia-container-toolkit パッケージを直接使用することをお勧めします。

追加
  • CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 で CUDA12.3 スタックが追加されました

削除済み
  • /usr/local/cuda-11.7 および /usr/local/cuda-12.0 ディレクトリに存在する CUDA11.7、CUDA12.0 スタックを削除しました

  • NVIDIA Container Toolkit のバージョン 1.13.5 から 1.15.0 への更新の一環として、nvidia-docker2 パッケージおよびそのコマンド nvidia-docker を削除しました (nvidia-container-runtime および nvidia-docker2 パッケージは含まれません)。

リリース日: 2024 年 4 月 4 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404

追加
  • OSS Nvidia Driver DLAMIs、G6 および Gr6 EC2 インスタンスのサポートが追加されました。詳細については、「推奨 GPU インスタンス」を参照してください。

リリース日: 2024 年 3 月 29 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326

更新
  • Proprietary Nvidia Driver および OSS Nvidia Driver の DLAMI の両方で、ドライバーのバージョンが 535.104.12 から 535.161.08 に更新されました。

  • Proprietary Nvidia Driver DLAMI から G4dn、G5 EC2 インスタンスのサポートを削除しました。

  • DLAMI ごとに新たにサポートされるインスタンスは以下のとおりです。

    • Deep Learning with Proprietary Nvidia Driver は G3 (G3.16x はサポートしていません)、P3、P3dn をサポートしています。

    • Deep Learning with OSS Nvidia Driver は、G4dn、G5、P4d、P4de、P5 をサポートしています。

リリース日: 2024 年 3 月 20 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318

追加
  • Proprietary Nvidia Driver および OSS Nvidia Driver の AMI で、/usr/bin/aws として awscliv1 を追加することに加え、/usr/local/bin/aws2 として awscliv2 が追加されました。

リリース日: 2024 年 3 月 14 日

AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314

更新
  • 現在のサポートに基づいて、G4dn および G5 をサポートする OSS Nvidia Driver DLAMI が次のように更新されました。

    • Deep Learning Base Proprietary Nvidia Driver AMI (Ubuntu 20.04) は、P3、P3dn、G3、G5、G4dn をサポートしています。

    • Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) は、G5、G4dn、P4、P5 をサポートしています。

  • OSS Nvidia Driver DLAMI は、G5、G4dn、P4、P5 に使用することをお勧めします。

リリース日: 2024 年 2 月 12 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208

更新
  • AWS OFI NCCL プラグインが 1.7.3 から 1.7.4 に更新されました

リリース日: 2024 年 2 月 1 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201

セキュリティ
  • CVE-2024-21626 のパッチを適用するため、runc パッケージのバージョンが更新されました。

リリース日: 2023 年 12 月 4 日

AMI 名
  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204

追加
  • AWS Deep Learning AMI (DLAMI) は 2 つのグループに分割されます。

    • Nvidia Proprietary Driver を使用する DLAMI (P3、P3dn、G3、G5、G4dn をサポート)。

    • Nvidia OSS Driver を使用して EFA を有効にする DLAMI (P4、P5 をサポート)。

  • DLAMI 分割の詳細については、「DLAMI に関する重要な変更」を参照してください。

  • 上記の AWS CLI クエリは、「AWSCLI で AMI-ID をクエリする (例: リージョンは us-east-1)」の項目に記載されています。

更新
  • EFA が 1.26.1 から 1.29.0 に更新されました

  • GDRCopy が 2.3 から 2.4 に更新されました

リリース日: 2023 年 10 月 18 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231018

更新
  • AWS OFI NCCL プラグインがバージョン 1.7.2 からバージョン 1.7.3 に更新されました

  • CUDA 12.2 と一致するように、CUDA 12.0-12.1 ディレクトリが NCCL バージョン 2.18.5 に更新されました

  • CUDA12.1 がデフォルトの CUDA バージョンとして更新されました

    • LD_LIBRARY_PATH に /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 を設定し、/usr/local/cuda-12.1/bin/ へのパスが含まれるようになりました。

    • 異なる CUDA バージョンに変更する場合は、そのバージョンに応じて LD_LIBRARY_PATH 変数と PATH 変数を定義してください。

リリース日: 2023 年 10 月 2 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231002

更新
  • NVIDIA ドライバーが 535.54.03 から 535.104.12 に更新されました

    • この最新のドライバーは、ドライバーバージョン 535.54.03 で見つかった NVML ABI の重大な変更と、P5 インスタンスの CUDA ツールキットに影響を与えたバージョン 535.86.10 で見つかったドライバーのリグレッションを修正します。修正の詳細については、次の NVIDIA リリースノートを参照してください。

    • 修正の詳細については、次の NVIDIA リリースノートを参照してください。

      • 4235941 - NVML ABI の重大な変更の修正

      • 4228552 - CUDA Toolkit エラーの修正

  • CUDA 12.2 ディレクトリが NCCL 2.18.5 で更新されました

  • EFA がバージョン 1.24.1 から最新の 1.26.1 に更新されました

追加
  • /usr/local/cuda-12.2 に CUDA12.2 が追加されました

削除済み
  • CUDA 11.5 および CUDA 11.6 のサポートが削除されました

リリース日: 2023 年 9 月 26 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230926

追加
  • P5 で確認された予測不可能なネットワークインターフェイスの命名問題 (リンク) を修正するため、net.naming-scheme の変更が追加されました。この変更は、/etc/default/grub ファイルの linux ブート引数で net.naming-scheme=v247 を設定することにより実行されます。

リリース日: 2023 年 8 月 30 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230830

更新
  • aws-ofi-nccl plugin プラグインが v1.7.1 から v1.7.2 に更新されました

リリース日: 2023 年 8 月 11 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230811

追加
  • この AMI は、P5 および以前からサポートされていたすべての EC2 インスタンスでマルチノードトレーニング機能をサポートするようになりました。

  • P5 EC2 インスタンスでは、NCCL 2.18 の使用が推奨され、CUDA12.0 および CUDA12.1 に追加されています。

削除済み
  • CUDA11.3 および CUDA11.4 のサポートが削除されました。

リリース日: 2023 年 8 月 4 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230804

更新
  • AWS OFI NCCL プラグインが v1.7.1 に更新されました。

  • PyTorch 2.0 では 11.8 をサポートしており、CUDA11.8 がデフォルトになりました。また、P5 EC2 インスタンスでは、>=CUDA11.8 を使用することを推奨します。

    • LD_LIBRARY_PATH に /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 を設定し、/usr/local/cuda-11.8/bin/ へのパスが含まれるようになりました。

    • 異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を定義してください。

  • CUDA 12.0、12.1 ディレクトリが NCCL 2.18.3 で更新されました

Fixed
  • 以前のリリース日 (2023 年 7 月 19 日) で説明した Nvidia Fabric Manager (FM) パッケージの読み込みの問題を修正しました。

リリース日: 2023 年 7 月 19 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230719

更新
  • EFA が 1.22.1 から 1.24.1 に更新されました

  • NVIDIA ドライバーが 525.85.12 から 535.54.03 に更新されました

追加
  • プロセッサのアイドルステートを無効にするため、最大の C ステートを C1 に設定する C ステートの変更が追加されました。この変更は、ファイル「/etc/default/grub」内の Linux ブート引数に「intel_idle.max_cstate=1 processor.max_cstate=1」を設定することにより実行します

  • AWS EC2 P5 インスタンスのサポート:

    • 単一ノード/インスタンスを使用するワークフロー向けに、P5 EC2 インスタンスのサポートが追加されました。今後のリリースで、EFA (Elastic Fabric Adapter) と AWS OFI NCCL プラグインを使用したマルチノードサポート (マルチノードトレーニングなど) が追加される予定です。

    • 最適なパフォーマンスを得るには、CUDA>=11.8 を使用してください。

    • 既知の問題: Nvidia Fabric Manager (FM) パッケージが P5 にロードされるまでに時間がかかるため、お客様は P5 インスタンスの起動後に FM がロードされるまで 2~3 分待つ必要があります。FM が起動しているかどうかを確認するには、コマンド sudo systemctl is-active nvidia-fabricmanager を実行します。ワークフローを開始する前にアクティブ状態が返されます。これは、今後のリリースで改善される予定です。

リリース日: 2023 年 5 月 19 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230519

更新
  • EFA が最新の 1.22.1 に更新されました

  • CUDA 12.1 の NCCL バージョンが 2.17.1 に更新されました

追加
  • /usr/local/cuda-12.1 に CUDA12.1 が追加されました

  • datacenter-gpu-manager パッケージによる NVIDIA Data Center GPU Monitor (DCGM) のサポートが追加されました

    • このサービスのステータスは、sudo systemctl status nvidia-dcgm のクエリで確認できます。

  • Ephemeral NVMe インスタンスストアがサポートされている EC2 インスタンスに自動的にマウントされ、/opt/dlami/nvme/ フォルダからストレージにアクセスできるようになりました。このサービスは、次の方法で確認または変更できます。

    • NVMe サービスのステータスを確認する: sudo systemctl status dlami-nvme

    • サービスにアクセスまたは変更する: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe ボリュームは、IOPS パフォーマンスを必要とする高スループットワークフロー向けに、最も高速で効率的なストレージソリューションを提供します。Ephemeral NVMe インスタンスストアはインスタンスのコストに含まれているため、このサービスで追加料金は発生しません。

  • NVMe インスタンスストアは、このサービスをサポートする EC2 インスタンスにのみマウントされます。NVMe がサポートされているインスタンスストアを持つ EC2 インスタンスの詳細については、「使用可能なインスタンスストアボリューム」を参照して、NVMe がサポートされていることを確認してください。

  • ディスクのパフォーマンスを向上させ、初回書き込みのペナルティを削減するには、インスタンスストアを初期化します (注: EC2 インスタンスタイプによってはこのプロセスに数時間かかる場合があります) - 「EC2 インスタンスでのインスタンスストアボリュームの初期化

  • : NVMe インスタンスストアはインスタンスにマウントされ、EBS などのネットワークには接続されません。これらの NVMe ボリュームのデータは、インスタンスの再起動または停止時に失われる可能性があります。

リリース日: 2023 年 4 月 17 日

AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230414

更新
  • DLAMI 名が AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} から Deep Learning Base GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD} に更新されました

    • このリリースから 1 か月間は、必要なサポートのために最新の DLAMI を旧 AMI 名で引き続きサポートいたします。お客様は、OS パッケージを apt-get update && apt-get upgrade で更新して、セキュリティパッチを適用できます。

  • AWS OFI NCCL プラグインパスが /usr/local/cuda-xx.x/efa/ から /opt/aws-ofi-nccl/ に更新されました

  • NCCL を v2.16.2 のカスタム GIT ブランチに更新しました。これは、すべての CUDA バージョンについて AWS と NCCL チームによって共同作成されました。AWS インフラストラクチャのパフォーマンスが向上します。

追加
  • /usr/local/cuda-12.0 に CUDA12.0 が追加されました

  • AWS FSx が追加されました

  • /usr/bin/python3.9 で Python バージョン 3.9 のサポートが追加されました

    • この変更はデフォルトのシステム Python を置き換えるものではなく、python3 は引き続きシステム Python3.8 を指すことに注意してください。

    • Python3.9 には、次のコマンドを使用してアクセスできます。

      /usr/bin/python3.9 python3.9
削除済み
  • フレームワークサポートポリシーに基づいてサポートされているフレームワークバージョンで使用していないため、CUDA11.0-11.1 が /usr/local/cuda-11.x/ から削除されました。

リリース日: 2022 年 5 月 25 日

AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

更新
  • このリリースでは、新しい EC2 インスタンス p4de.24xlarge のサポートが追加されました。

    • aws-efa-installer がバージョン 1.15.2 に更新されました

    • aws-ofi-nccl がバージョン 1.3.0-aws に更新されました。これには p4de.24xlarge のトポロジが含まれています。

リリース日: 2022 年 3 月 25 日

AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

更新
  • EFA のバージョンが 1.15.0 から 1.15.1 に更新されました

リリース日: 2022 年 3 月 17 日

AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

追加
  • 初回リリース