AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
サポート終了通知
Ubuntu Linux 20.04 LTS は、2025 年 5 月 31 日に 5 年間の LTS サポート期間が終了し、ベンダーによるサポートがされなくなります。したがって、AWS Deep Learning Base GPU AMI (Ubuntu 20.04) は 2025 年 5 月 31 日以降更新されません。以前のリリースは、引き続き利用可能です。一般公開されたすべての AMI は、作成日から 2 年後に EC2 によって非推奨になることに注意してください。詳細については、「Amazon EC2 AMI を非推奨にする」を参照してください。
2025 年 8 月 31 日まで 3 か月間、サポートは機能についての問題 (セキュリティパッチは対象外) に対してのみ提供されます。
Ubuntu 20.04 DLAMI のユーザーは、 AWS Deep Learning Base GPU AMI (Ubuntu 22.04)
または AWS Deep Learning Base GPU AMI (Ubuntu 24.04) に移行する必要があります。または、AWS Deep Learning Base AMI (Amazon Linux 2023) を使用することもできます。
開始方法については、「DLAMI の使用開始」を参照してください。
AMI 名の形式
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
サポートされる EC2 インスタンス
「DLAMI に関する重要な変更」を参照してください。
Deep Learning with OSS Nvidia Driver は、G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en をサポートしています
Deep Learning with Proprietary Nvidia Driver は G3 (G3.16x はサポートしていません)、P3、P3dn をサポートしています。
AMI には、以下が含まれます。
サポートされている AWS のサービス: Amazon EC2
オペレーティングシステム: Ubuntu 20.04
コンピューティングアーキテクチャ: x86
利用可能な最新バージョンは、次のパッケージにインストールされます。
Linux Kernel: 5.15
FSx Lustre
Docker
/usr/local/bin/aws2 の AWS CLIv2 および /usr/bin/aws の AWS CLI v1
NVIDIA DCGM
NVIDIA Container Toolkit:
バージョンコマンド: nvidia-container-cli -V
Nvidia-docker2:
バージョンコマンド: nvidia-docker バージョン
Nvidia Driver:
OSS Nvidia Driver: 550.163.01
Proprietary Nvidia Driver: 550.163.01
NVIDIA CUDA 11.7、12.1~12.4 スタック:
CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/
例: /usr/local/cuda-12.1/
コンパイル済み NCCL バージョン: 2.22.3+CUDA12.4
デフォルトの CUDA: 12.1
/usr/local/cuda のパスは CUDA 12.1 を指します
以下の環境変数が更新されました。
LD_LIBRARY_PATH に /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib を設定しました
パスに /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ を設定しました
異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を更新してください。
NCCL テストの場所:
all_reduce、all_gather、および reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
NCCL テストを実行するには、LD_LIBRARY_PATH に以下の更新を渡す必要があります。
共通パスは、既に LD_LIBRARY_PATH に追加されています。
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を更新してください。
EFA インストーラ: 1.39.0
Nvidia GDRCopy: 2.4
AWS OFI NCCL プラグイン: EFA Installer-aws の一部としてインストールされます
AWS OFI NCCL は単一ビルドで複数の NCCL バージョンをサポートするようになりました
インストールパス: /opt/aws-ofi-nccl/ /opt/aws-ofi-nccl/lib のパスが LD_LIBRARY_PATH に追加されました。
ring、message_transfer のテストパス: /opt/aws-ofi-nccl/tests
EBS ボリュームタイプ: gp3
Python: /usr/bin/python3.9
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme
SSM パラメータで AMI-ID をクエリ (例: リージョンは us-east-1):
OSS Nvidia Driver:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textProprietary Nvidia Driver:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI で AMI-ID をクエリ (例: リージョンは us-east-1):
OSS Nvidia Driver:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textProprietary Nvidia Driver:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
NVIDIA Container Toolkit: 1.17.4
Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換性レイヤーを使用する場合」のチュートリアルに示されているように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
EFA は 1.37 から 1.38 に更新されました (2025 年 2 月 4 日リリース)
EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/aws-ofi-nccl/ にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
サポートポリシー
この AMI のコンポーネント (CUDA バージョンなど) は、フレームワークサポートポリシーに基づく場合、深層学習コンテナ
複数のネットワークカードを持つ EC2 インスタンス
EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。
DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENI の制限値未満の負以外の整数である必要があります。P5 では、NetworkCard あたりの ENI の数は 2 で、DeviceIndex の有効な値は 0 または 1 のみとなります。
プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) には EFA (EFA と ENA の組み合わせ) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。
追加のネットワークインターフェイスごとに、次の未使用ネットワークカードインデックス、デバイスインデックス 1、および ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、EFA (EFA と ENA の組み合わせ) または EFA のみのネットワークインターフェイスのいずれかを使用します。ユースケースの例については、P5 インスタンスの EFA 設定を参照してください。
詳細については、こちら の EFA ガイドを参照してください。
P5/P5e インスタンス
P5 および P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
カーネルバージョンは、次のコマンドを使用して固定されます。
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsインストール済みのドライバーとパッケージバージョンとの互換性を確保するため、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。引き続き更新が必要な場合は、次のコマンドを実行してカーネルバージョンの固定を解除できます。
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsDLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025 年 4 月 24 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424
更新
2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報
に記載されている CVE に対処するため、NVIDIA ドライバーがバージョン 550.144.03 から 550.163.01 にアップグレードされました。
リリース日: 2025 年 2 月 17 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214
更新
NVIDIA Container Toolkit がバージョン 1.17.3 からバージョン 1.17.4 に更新されました
詳細については、こちら https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
のリリースノートページを参照してください。 Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換性レイヤーを使用する場合」のチュートリアルに示されているように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
削除済み
2025 年 2 月 18 日の NVIDIA CUDA ツールキットのセキュリティ情報
に記載されている脆弱性に対処するため、NVIDIA CUDA ツールキット が提供するユーザースペースライブラリの cuobj および nvdisasm を削除しました
リリース日: 2025 年 2 月 4 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204
更新
EFA のバージョンが 1.37.0 から 1.38.0 にアップグレードされました
EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/aws-ofi-nccl/ にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
削除済み
これらの DLAMI から emacs パッケージが削除されました。お客様は、GNU emacs https://www.gnu.org/software/emacs/download.html
から emacs をインストールできます。
リリース日: 2025 年 1 月 17 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117
更新
2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報
に記載されている CVE に対処するため、NVIDIA ドライバーがバージョン 550.127.05 から 550.144.03 にアップグレードされました
リリース日: 2024 年 12 月 9 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
更新
Nvidia Container Toolkit がバージョン 1.17.0 から 1.17.3 にアップグレードされました
リリース日: 2024 年 11 月 22 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
追加
P5en EC2 インスタンスのサポートが追加されました。
更新
EFA インストーラがバージョン 1.35.0 から 1.37.0 にアップグレードされました
AWS OFI NCCL プラグインがバージョン 1.12.1-aws から 1.13.0-aws にアップグレードされました
リリース日: 2024 年 10 月 26 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
更新
2024 年 10 月の NVIDIA GPU ディスプレイのセキュリティ情報
に記載されている CVE に対処するため、NVIDIA ドライバーがバージョン 550.90.07 から 550.127.05 にアップグレードされました
リリース日: 2024 年 10 月 3 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
更新
Nvidia Container Toolkit がバージョン 1.16.1 から 1.16.2 にアップグレードされました
リリース日: 2024 年 8 月 27 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
更新
Nvidia ドライバーと Fabric Manager がバージョン 535.183.01 から 550.90.07 にアップグレードされました
EFA のバージョンが 1.32.0 から 1.34.0 にアップグレードされました
すべての CUDA バージョンで、NCCL が最新バージョンの 2.22.3 にアップグレードされました
CUDA 11.7 がバージョン 2.16.2+CUDA11.7 からアップグレードされました
CUDA 12.1、12.2 が 2.18.5+CUDA12.2 からアップグレードされました
CUDA 12.3 がバージョン 2.21.5+CUDA12.4 からアップグレードされました
追加
ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 が追加されました
P5e EC2 インスタンスのサポートが追加されました。
削除済み
ディレクトリ /usr/local/cuda-11.8 に存在する CUDA Toolkit バージョン 11.8 のスタックを削除しました。
リリース日: 2024 年 8 月 19 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
追加
G6e EC2 インスタンス
のサポートが追加されました。
リリース日: 2024 年 6 月 6 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606
更新
Nvidia ドライバーのバージョンが 535.183.01 から 535.161.08 に更新されました
リリース日: 2024 年 5 月 15 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
追加
PyTorch 1.13 によって CUDA11.7 をサポートするため、CUDA11.7、NCCL 2.16.2、CuDNN 8.7.0 を使用してディレクトリ /usr/local/cuda-11.7 に CUDA11.7 スタックが追加されました
リリース日: 2024 年 5 月 2 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
更新
EFA のバージョンがバージョン 1.30 から 1.32 に更新されました
AWS OFI NCCL プラグインがバージョン 1.7.4 からバージョン 1.9.1 に更新されました
NVIDIA Container Toolkit がバージョン 1.13.5 からバージョン 1.15.0
に更新されました バージョン 1.15.0 には、nvidia-container-runtime および nvidia-docker2 パッケージは含まれていません。「Nvidia container toolkit docs
」を参照して、nvidia-container-toolkit パッケージを直接使用することをお勧めします。
追加
CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 で CUDA12.3 スタックが追加されました
削除済み
/usr/local/cuda-11.7 および /usr/local/cuda-12.0 ディレクトリに存在する CUDA11.7、CUDA12.0 スタックを削除しました
NVIDIA Container Toolkit のバージョン 1.13.5 から 1.15.0
への更新の一環として、nvidia-docker2 パッケージおよびそのコマンド nvidia-docker を削除しました (nvidia-container-runtime および nvidia-docker2 パッケージは含まれません)。
リリース日: 2024 年 4 月 4 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
追加
OSS Nvidia Driver DLAMIs、G6 および Gr6 EC2 インスタンスのサポートが追加されました。詳細については、「推奨 GPU インスタンス」を参照してください。
リリース日: 2024 年 3 月 29 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
更新
Proprietary Nvidia Driver および OSS Nvidia Driver の DLAMI の両方で、ドライバーのバージョンが 535.104.12 から 535.161.08 に更新されました。
Proprietary Nvidia Driver DLAMI から G4dn、G5 EC2 インスタンスのサポートを削除しました。
DLAMI ごとに新たにサポートされるインスタンスは以下のとおりです。
Deep Learning with Proprietary Nvidia Driver は G3 (G3.16x はサポートしていません)、P3、P3dn をサポートしています。
Deep Learning with OSS Nvidia Driver は、G4dn、G5、P4d、P4de、P5 をサポートしています。
リリース日: 2024 年 3 月 20 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
追加
Proprietary Nvidia Driver および OSS Nvidia Driver の AMI で、/usr/bin/aws として
awscliv1を追加することに加え、/usr/local/bin/aws2 としてawscliv2が追加されました。
リリース日: 2024 年 3 月 14 日
AMI 名: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
更新
現在のサポートに基づいて、G4dn および G5 をサポートする OSS Nvidia Driver DLAMI が次のように更新されました。
Deep Learning Base Proprietary Nvidia Driver AMI (Ubuntu 20.04) は、P3、P3dn、G3、G5、G4dn をサポートしています。
Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) は、G5、G4dn、P4、P5 をサポートしています。
OSS Nvidia Driver DLAMI は、G5、G4dn、P4、P5 に使用することをお勧めします。
リリース日: 2024 年 2 月 12 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208
更新
AWS OFI NCCL プラグインが 1.7.3 から 1.7.4 に更新されました
リリース日: 2024 年 2 月 1 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
セキュリティ
CVE-2024-21626
のパッチを適用するため、runc パッケージのバージョンが更新されました。
リリース日: 2023 年 12 月 4 日
AMI 名
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
追加
AWS Deep Learning AMI (DLAMI) は 2 つのグループに分割されます。
Nvidia Proprietary Driver を使用する DLAMI (P3、P3dn、G3、G5、G4dn をサポート)。
Nvidia OSS Driver を使用して EFA を有効にする DLAMI (P4、P5 をサポート)。
DLAMI 分割の詳細については、「DLAMI に関する重要な変更」を参照してください。
上記の AWS CLI クエリは、「AWSCLI で AMI-ID をクエリする (例: リージョンは us-east-1)」の項目に記載されています。
更新
EFA が 1.26.1 から 1.29.0 に更新されました
GDRCopy が 2.3 から 2.4 に更新されました
リリース日: 2023 年 10 月 18 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231018
更新
AWS OFI NCCL プラグインがバージョン 1.7.2 からバージョン 1.7.3 に更新されました
CUDA 12.2 と一致するように、CUDA 12.0-12.1 ディレクトリが NCCL バージョン 2.18.5 に更新されました
CUDA12.1 がデフォルトの CUDA バージョンとして更新されました
LD_LIBRARY_PATH に /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 を設定し、/usr/local/cuda-12.1/bin/ へのパスが含まれるようになりました。
異なる CUDA バージョンに変更する場合は、そのバージョンに応じて LD_LIBRARY_PATH 変数と PATH 変数を定義してください。
リリース日: 2023 年 10 月 2 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231002
更新
NVIDIA ドライバーが 535.54.03 から 535.104.12 に更新されました
CUDA 12.2 ディレクトリが NCCL 2.18.5 で更新されました
EFA がバージョン 1.24.1 から最新の 1.26.1 に更新されました
追加
/usr/local/cuda-12.2 に CUDA12.2 が追加されました
削除済み
CUDA 11.5 および CUDA 11.6 のサポートが削除されました
リリース日: 2023 年 9 月 26 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230926
追加
P5 で確認された予測不可能なネットワークインターフェイスの命名問題 (リンク
) を修正するため、net.naming-scheme の変更が追加されました。この変更は、/etc/default/grub ファイルの linux ブート引数で net.naming-scheme=v247 を設定することにより実行されます。
リリース日: 2023 年 8 月 30 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230830
更新
aws-ofi-nccl plugin プラグインが v1.7.1 から v1.7.2 に更新されました
リリース日: 2023 年 8 月 11 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230811
追加
この AMI は、P5 および以前からサポートされていたすべての EC2 インスタンスでマルチノードトレーニング機能をサポートするようになりました。
P5 EC2 インスタンスでは、NCCL 2.18 の使用が推奨され、CUDA12.0 および CUDA12.1 に追加されています。
削除済み
CUDA11.3 および CUDA11.4 のサポートが削除されました。
リリース日: 2023 年 8 月 4 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230804
更新
AWS OFI NCCL プラグインが v1.7.1 に更新されました。
PyTorch 2.0 では 11.8 をサポートしており、CUDA11.8 がデフォルトになりました。また、P5 EC2 インスタンスでは、>=CUDA11.8 を使用することを推奨します。
LD_LIBRARY_PATH に /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 を設定し、/usr/local/cuda-11.8/bin/ へのパスが含まれるようになりました。
異なる CUDA バージョンの場合は、そのバージョンに応じて LD_LIBRARY_PATH を定義してください。
CUDA 12.0、12.1 ディレクトリが NCCL 2.18.3 で更新されました
Fixed
以前のリリース日 (2023 年 7 月 19 日) で説明した Nvidia Fabric Manager (FM) パッケージの読み込みの問題を修正しました。
リリース日: 2023 年 7 月 19 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230719
更新
EFA が 1.22.1 から 1.24.1 に更新されました
NVIDIA ドライバーが 525.85.12 から 535.54.03 に更新されました
追加
プロセッサのアイドルステートを無効にするため、最大の C ステートを C1 に設定する C ステートの変更が追加されました。この変更は、ファイル「/etc/default/grub」内の Linux ブート引数に「intel_idle.max_cstate=1 processor.max_cstate=1」を設定することにより実行します
AWS EC2 P5 インスタンスのサポート:
単一ノード/インスタンスを使用するワークフロー向けに、P5 EC2 インスタンスのサポートが追加されました。今後のリリースで、EFA (Elastic Fabric Adapter) と AWS OFI NCCL プラグインを使用したマルチノードサポート (マルチノードトレーニングなど) が追加される予定です。
最適なパフォーマンスを得るには、CUDA>=11.8 を使用してください。
既知の問題: Nvidia Fabric Manager (FM) パッケージが P5 にロードされるまでに時間がかかるため、お客様は P5 インスタンスの起動後に FM がロードされるまで 2~3 分待つ必要があります。FM が起動しているかどうかを確認するには、コマンド sudo systemctl is-active nvidia-fabricmanager を実行します。ワークフローを開始する前にアクティブ状態が返されます。これは、今後のリリースで改善される予定です。
リリース日: 2023 年 5 月 19 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230519
更新
EFA が最新の 1.22.1 に更新されました
CUDA 12.1 の NCCL バージョンが 2.17.1 に更新されました
追加
/usr/local/cuda-12.1 に CUDA12.1 が追加されました
datacenter-gpu-manager パッケージによる NVIDIA Data Center GPU Monitor (DCGM)
のサポートが追加されました このサービスのステータスは、sudo systemctl status nvidia-dcgm のクエリで確認できます。
Ephemeral NVMe インスタンスストアがサポートされている EC2 インスタンスに自動的にマウントされ、/opt/dlami/nvme/ フォルダからストレージにアクセスできるようになりました。このサービスは、次の方法で確認または変更できます。
NVMe サービスのステータスを確認する: sudo systemctl status dlami-nvme
サービスにアクセスまたは変更する: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe ボリュームは、IOPS パフォーマンスを必要とする高スループットワークフロー向けに、最も高速で効率的なストレージソリューションを提供します。Ephemeral NVMe インスタンスストアはインスタンスのコストに含まれているため、このサービスで追加料金は発生しません。
NVMe インスタンスストアは、このサービスをサポートする EC2 インスタンスにのみマウントされます。NVMe がサポートされているインスタンスストアを持つ EC2 インスタンスの詳細については、「使用可能なインスタンスストアボリューム」を参照して、NVMe がサポートされていることを確認してください。
ディスクのパフォーマンスを向上させ、初回書き込みのペナルティを削減するには、インスタンスストアを初期化します (注: EC2 インスタンスタイプによってはこのプロセスに数時間かかる場合があります) - 「EC2 インスタンスでのインスタンスストアボリュームの初期化」
注: NVMe インスタンスストアはインスタンスにマウントされ、EBS などのネットワークには接続されません。これらの NVMe ボリュームのデータは、インスタンスの再起動または停止時に失われる可能性があります。
リリース日: 2023 年 4 月 17 日
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230414
更新
DLAMI 名が AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} から Deep Learning Base GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD} に更新されました
このリリースから 1 か月間は、必要なサポートのために最新の DLAMI を旧 AMI 名で引き続きサポートいたします。お客様は、OS パッケージを apt-get update && apt-get upgrade で更新して、セキュリティパッチを適用できます。
AWS OFI NCCL プラグインパスが /usr/local/cuda-xx.x/efa/ から /opt/aws-ofi-nccl/ に更新されました
NCCL を v2.16.2 のカスタム GIT ブランチ
に更新しました。これは、すべての CUDA バージョンについて AWS と NCCL チームによって共同作成されました。AWS インフラストラクチャのパフォーマンスが向上します。
追加
/usr/local/cuda-12.0 に CUDA12.0 が追加されました
AWS FSx
が追加されました /usr/bin/python3.9 で Python バージョン 3.9 のサポートが追加されました
この変更はデフォルトのシステム Python を置き換えるものではなく、python3 は引き続きシステム Python3.8 を指すことに注意してください。
Python3.9 には、次のコマンドを使用してアクセスできます。
/usr/bin/python3.9 python3.9
削除済み
フレームワークサポートポリシーに基づいてサポートされているフレームワークバージョンで使用していないため、CUDA11.0-11.1 が /usr/local/cuda-11.x/ から削除されました。
リリース日: 2022 年 5 月 25 日
AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
更新
このリリースでは、新しい EC2 インスタンス p4de.24xlarge のサポートが追加されました。
aws-efa-installer がバージョン 1.15.2 に更新されました
aws-ofi-nccl がバージョン 1.3.0-aws に更新されました。これには p4de.24xlarge のトポロジが含まれています。
リリース日: 2022 年 3 月 25 日
AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
更新
EFA のバージョンが 1.15.0 から 1.15.1 に更新されました
リリース日: 2022 年 3 月 17 日
AMI 名: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
追加
初回リリース