翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
サポート終了の通知
Ubuntu Linux 20.04 LTS は 2025 年 5 月 31 日に 5 年間の LTS 期間が終了し、ベンダーによってサポートされなくなります。 したがって、 AWS Deep Learning Base GPU AMI (Ubuntu 20.04) は 2025 年 5 月 31 日以降更新されません。以前のリリースは、引き続き利用可能です。パブリックにリリースされた AMI は、作成日から 2 年後に EC2 によって廃止されることに注意してください。詳細については、Amazon EC2 AMI の廃止」を参照してください。
2025 年 8 月 31 日まで 3 か月間、サポートは機能上の問題 (セキュリティパッチではない) に対してのみ提供されます。
Ubuntu 20.04 DLAMI のユーザーは、 AWS Deep Learning Base GPU AMI (Ubuntu 22.04)
または AWS Deep Learning Base GPU AMI (Ubuntu 24.04) に移行する必要があります。または、 AWS Deep Learning Base AMI (Amazon Linux 2023) を使用することもできます。
開始方法については、「」を参照してくださいDLAMI の使用開始。
AMI 名形式
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
サポートされる EC2 インスタンス
DLAMI の重要な変更点を参照してください。
OSS Nvidia ドライバーによる深層学習はG4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en をサポートしています。
独自の Nvidia ドライバーを使用した Deep Learning が G3 (G3.16x はサポートされていません)、P3, P3dn をサポート
AMI には以下が含まれます。
サポートされている AWS サービス: Amazon EC2
オペレーティングシステム: Ubuntu 20.04
コンピューティングアーキテクチャ: x86
利用可能な最新バージョンは、次のパッケージにインストールされます。
Linux カーネル 5.15
FSx Lustre
Docker
AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1
NVIDIA DCGM
Nvidia コンテナツールキット:
バージョンコマンド: nvidia-container-cli -V
Nvidia-docker2:
Version コマンド: nvidia-docker バージョン
NVIDIA ドライバー:
OSS Nvidia ドライバー: 550.163.01
独自の Nvidia ドライバー: 550.163.01
NVIDIA CUDA 11.7、12.1~12.4 スタック:
CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/
例: /usr/local/cuda-12.1/
コンパイル済み NCCL バージョン: 2.22.3+CUDA12.4
デフォルトの CUDA: 12.1
PATH /usr/local/cuda が CUDA 12.1 を指す
以下の env vars を更新しました。
LD_LIBRARY_PATH に /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib を付ける
/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ を持つ PATH
CUDA のバージョンが異なる場合は、それに応じて LD_LIBRARY_PATH を更新してください。
NCCL テストの場所:
all_reduce、all_gather、および reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
NCCL テストを実行するには、LD_LIBRARY_PATH が以下の更新で合格する必要があります。
一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
CUDA のバージョンが異なる場合は、それに応じて LD_LIBRARY_PATH を更新してください。
EFA インストーラ: 1.39.0
Nvidia GDRCopy: 2.4
AWS OFI NCCL プラグイン: は EFA Installer-aws の一部としてインストールされます
AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました
インストールパス: /opt/aws-ofi-nccl/ 。パス /opt/aws-ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。
ring, message_transfer のテストパス: /opt/aws-ofi-nccl/tests
EBS ボリュームタイプ: gp3
Python: /usr/bin/python3.9
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme
SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):
OSS Nvidia ドライバー:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text独自の Nvidia ドライバー:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text独自の Nvidia ドライバー:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
NVIDIA Container Toolkit 1.17.4
Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「If you use a CUDA compatibility layer」チュートリアルに示すように、必ず LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めてください。
EFA 1.37 から 1.38 への更新 (2025-02-04 にリリース)
EFA が AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
サポートポリシー
CUDA バージョンなどのこの AMI のコンポーネントは、フレームワークのサポートポリシーに基づいて削除および変更したり、深層学習コンテナ
複数のネットワークカードを持つ EC2 インスタンス
EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。
DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。
プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) の場合は、EFA (EFA with ENA) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。
追加のネットワークインターフェイスごとに、ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、次に未使用のネットワークカードインデックス、デバイスインデックス 1、EFA (EFA with ENA) または EFA のみのネットワークインターフェイスを使用します。ユースケースの例については、P5 インスタンスの EFA 設定」を参照してください。
詳細については、https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-acc-inst-types.html「EFA ガイド」を参照してください。
P5/P5e インスタンス
P5 インスタンスと P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
カーネルバージョンは コマンドを使用して固定されます。
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsインストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsDLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025-04-24
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250424
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250424
更新
2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.144.03 から 550.163.01 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630
リリース日: 2025-02-17
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250214
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250214
更新
NVIDIA Container Toolkit をバージョン 1.17.3 からバージョン 1.17.4 に更新しました
詳細については、「https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
」のリリースノートページを参照してください。 Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
削除済み
2025 年 2 月 18 日の NVIDIA CUDA Toolkit
Security Bulletin にある CVEs に対応するために NVIDIA CUDA ツールキットが提供するユーザースペースライブラリ cuobj と nvdisasm を削除 https://nvidia.custhelp.com/app/answers/detail/a_id/5594
リリース日: 2025-02-04
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250204
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250204
更新
EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました
EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
削除済み
emacs パッケージがこれらの DLAMIsから削除されました。お客様は、GNU emacs https://www.gnu.org/software/emacs/download.html
から emacs をインストールできます。
リリース日: 2025-01-17
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250117
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20250117
更新
2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5614
リリース日: 2024-12-09
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20241206
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20241206
更新
Nvidia Container Toolkit をバージョン 1.17.0 から 1.17.3 にアップグレードしました
リリース日: 2024-11-22
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20241122
を追加
P5en EC2 インスタンスのサポートが追加されました。
更新
EFA インストーラをバージョン 1.35.0 から 1.37.0 にアップグレードしました
AWS OFI NCCL プラグインをバージョン 1.12.1-aws から 1.13.0-aws にアップグレードする
リリース日: 2024-10-26
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20241025
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20241025
更新
2024 年 550.90.070 月の NVIDIA GPU ディスプレイセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン から 550.127.05 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5586
リリース日: 2024-10-03
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240927
更新
Nvidia Container Toolkit をバージョン 1.16.1 から 1.16.2 にアップグレードしました
リリース日: 2024-08-27
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240827
更新
Nvidia ドライバーと Fabric Manager をバージョン 535.183.01 から 550.90.07 にアップグレードしました
EFA バージョンを 1.32.0 から 1.34.0 にアップグレードしました
すべての CUDA バージョンで NCCL を最新バージョン 2.22.3 にアップグレード
バージョン 2.16.2+CUDA11.7 からアップグレードされた CUDA11.7
CUDA 12.1、12.2 を 2.18.5+CUDA12.2 からアップグレード
バージョン 2.21.5+CUDA12.4 からアップグレードされた CUDA12.3
を追加
ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 を追加
P5e EC2 インスタンスのサポートが追加されました。
削除済み
ディレクトリ /usr/local/cuda-11.8 に存在する CUDA Toolkit バージョン 11.8 スタックを削除
リリース日: 2024-08-19
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240816
を追加
G6e EC2 インスタンス
のサポートが追加されました。
リリース日: 2024-06-06
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240606
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240606
更新
Nvidia ドライバーのバージョンを 535.183.01 から 535.161.08 に更新
リリース日: 2024-05-15
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240515
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240515
を追加
PyTorch 1.13 が CUDA11.7 をサポートするため、CUDA11.7、NCCL 2.16.2、CuDNN 8.7.0 を使用してディレクトリ /usr/local/cuda-11.CUDA117 に CUDA11.7 スタックを追加
リリース日: 2024-05-02
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240502
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240502
更新
EFA バージョンをバージョン 1.30 からバージョン 1.32 に更新
AWS OFI NCCL プラグインをバージョン 1.7.4 からバージョン 1.9.1 に更新
Nvidia コンテナツールキットをバージョン 1.13.5 からバージョン 1.15.0
に更新 バージョン 1.15.0 には、nvidia-container-runtime および nvidia-docker2 パッケージは含まれていません。nvidia-container-toolkit パッケージを直接使用することをお勧めします。 https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html
を追加
CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 を含む CUDA12.3 スタックを追加
削除済み
/usr/local/cuda-CUDA11.7 および /usr/local/cuda-12.0 ディレクトリに存在する CUDA1211.7、CUDA12.0 スタックを削除usr/local/cuda-11usr/local/cuda-12
nvidia-container-runtime パッケージと nvidia-docker2 パッケージを含まない 1.13.5 から 1.15.0
への Nvidia コンテナツールキットの更新の一環として、nvidia-docker2 パッケージとそのコマンド nvidia-docker を削除しました。 nvidia-container-runtime
リリース日: 2024-04-04
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240404
を追加
OSS Nvidia ドライバー DLAMIs、G6 および Gr6 EC2 インスタンスのサポートが追加されました。詳細については、「推奨 GPU インスタンス」を参照してください。
リリース日: 2024-03-29
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240326
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240326
更新
独自のドライバー DLAMI と OSS Nvidia ドライバー DLAMI の両方で、Nvidia ドライバーを 535.104.12 から 535.161.08 に更新しました。 DLAMIs
G4dn, G5 EC2 インスタンスのサポートを独自の Nvidia ドライバー DLAMI から削除しました。
DLAMI ごとにサポートされている新しいインスタンスは次のとおりです。
独自の Nvidia ドライバーを使用した Deep Learning で G3 (G3.16x はサポートされていません)、P3, P3dn をサポート
OSS Nvidia ドライバーを使用した Deep Learning は、G4dn, G5, P4d, P4de, P5 をサポートしています。
リリース日: 2024-03-20
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240318
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240318
を追加
/usr/local/bin/aws2 の AMI
awscliv2に、独自および OSS Nvidia ドライバー AMI の /usr/bin/awsawscliv1として追加
リリース日: 2024-03-14
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240314
更新
現在のサポートに基づいて、G4dn および G5 をサポートする OSS Nvidia ドライバー DLAMI が次のように更新されました。
Deep Learning Base 独自の Nvidia Driver AMI (Ubuntu 20.04) は、P3, P3dn, G3, G5, G4dn をサポートしています。
Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) は G5, G4dn, P4, P5 をサポートしています。
OSS Nvidia ドライバー DLAMIsは、G5, G4dn, P4, P5 に使用することをお勧めします。
リリース日: 2024-02-12
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240208
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240208
更新
AWS OFI NCCL プラグインが 1.7.3 から 1.7.4 に更新されました
リリース日: 2024-02-01
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240201
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240201
セキュリティ
CVE-2024-21626
のパッチを使用するように runc パッケージバージョンを更新しました。
リリース日: 2023-12-04
AMI 名
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20231204
Deep Learning Base 独自の Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20231204
を追加
AWS Deep Learning AMI (DLAMI) は 2 つのグループに分割されます。
Nvidia 独自ドライバーを使用する DLAMI (P3, P3dn, G3, G5, G4dn をサポート)。
Nvidia OSS ドライバーを使用して EFA を有効にする DLAMI (P4, P5 をサポート)。
DLAMI 分割の詳細については、「DLAMI の重要な変更点」を参照してください。
AWS CLI 上記の のクエリは、AWSCLI を使用した Query AMI-ID の箇条書きの下にあります (例: リージョンは us-east-1)。
更新
EFA が 1.26.1 から 1.29.0 に更新されました
GDRCopy が 2.3 から 2.4 に更新されました
リリース日: 2023-10-18
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231018
更新
AWS OFI NCCL プラグインがバージョン 1.7.2 からバージョン 1.7.3 に更新されました
CUDA 12.2 と一致するように CUDA 12.0-12.1 ディレクトリを NCCL バージョン 2.18.5 で更新
CUDA12.1 がデフォルトの CUDA バージョンとして更新されました
LD_LIBRARY_PATH を /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 に更新し、PATH を /usr/local/cuda-12.1/bin/ に更新しました。
別の CUDA バージョンに変更する場合は、それに応じて LD_LIBRARY_PATH 変数と PATH 変数を定義してください。
リリース日: 2023-10-02
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231002
更新
NVIDIA ドライバーが 535.54.03 から 535.104.12 に更新されました
CUDA 12.2 ディレクトリを NCCL 2.18.5 で更新
EFA がバージョン 1.24.1 から最新の 1.26.1 に更新されました
を追加
/usr/local/cuda-12.2 に CUDA12.2 を追加usr/local/cuda-12
削除済み
CUDA 11.5 および CUDA 11.6 のサポートを削除
リリース日: 2023-09-26
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230926
を追加
P5 で見られる予測不可能なネットワークインターフェイスの命名問題 (リンク
) を修正するための net.naming-scheme の変更を追加しました。この変更は、/etc/default/grub ファイルの linux ブート引数に net.naming-scheme=v247 を設定することで行われます。
リリース日: 2023-08-30
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230830
更新
aws-ofi-nccl プラグインを v1.7.1 から v1.7.2 に更新
リリース日: 2023-08-11
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230811
を追加
この AMI は、P5 および以前にサポートされたすべての EC2 インスタンスでマルチノードトレーニング機能をサポートするようになりました。
P5 EC2 インスタンスでは、NCCL 2.18 の使用が推奨され、CUDA12.0 および CUDA12.1 に追加されました。
削除済み
CUDA11.3 および CUDA11.4 のサポートを削除しました。
リリース日: 2023-08-04
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230804
更新
AWS OFI NCCL プラグインを v1.7.1 に更新
PyTorch 2.0 が CUDA11.8 をデフォルトにしました。P5 EC2 インスタンスでは、>=CUDA11.8 を使用することをお勧めします。
LD_LIBRARY_PATH を /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 に更新し、PATH を /usr/local/cuda-11.8/bin/ に更新しました。
別の cuda バージョンの場合は、それに応じて LD_LIBRARY_PATH を定義してください。
CUDA 12.0、12.1 ディレクトリを NCCL 2.18.3 で更新
[固定]
前のリリース日 2023-07-19 で説明した Nvidia Fabric Manager (FM) パッケージのロードの問題を修正しました。
リリース日: 2023-07-19
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230719
更新
EFA が 1.22.1 から 1.24.1 に更新されました
Nvidia ドライバーが 525.85.12 から 535.54.03 に更新されました
を追加
最大 c-state を C1 に設定してプロセッサのアイドル状態を無効にする c-state の変更を追加しました。この変更は、ファイル /etc/default/grub の linux ブート引数で「intel_idle.max_cstate=1 processor.max_cstate=1」を設定することで行われます。
AWS EC2 P5 インスタンスのサポート:
単一ノード/インスタンスを使用するワークフローの P5 EC2 インスタンスのサポートを追加しました。EFA (Elastic Fabric Adapter) と AWS OFI NCCL プラグインを使用したマルチノードサポート (マルチノードトレーニングなど) は、今後のリリースで追加される予定です。
最適なパフォーマンスを得るには、CUDA>=11.8 を使用してください。
既知の問題: Nvidia Fabric Manager (FM) パッケージが P5 にロードされるまでに時間がかかるため、お客様は P5 インスタンスの起動後に FM がロードされるまで 2~3 分待つ必要があります。FM が開始されているかどうかを確認するには、sudo systemctl is-active nvidia-fabricmanager コマンドを実行してください。ワークフローを開始する前に、アクティブが返されます。これは今後のリリースで改善される予定です。
リリース日: 2023-05-19
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230519
更新
EFA が最新の 1.22.1 に更新されました
CUDA 12.1 の NCCL バージョンを 2.17.1 に更新
を追加
/usr/local/cuda-12.1 に CUDA12.1 を追加usr/local/cuda-12
datacenter-gpu-manager パッケージによる NVIDIA Data Center GPU Monitor (DCGM)
のサポートを追加 このサービスのステータスは、sudo systemctl status nvidia-dcgm のクエリで確認できます。
エフェメラル NVMe インスタンスストアがサポートされている EC2 インスタンスに自動的にマウントされ、/opt/dlami/nvme/ フォルダでストレージにアクセスできるようになりました。このサービスは、次の方法で確認または変更できます。
NVMe サービスのステータスを確認する: sudo systemctl status dlami-nvme
サービスにアクセスまたは変更するには: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe ボリュームは、IOPS パフォーマンスを必要とする高スループットワークフロー向けに、最も高速で効率的なストレージソリューションを提供します。エフェメラル NVMe インスタンスストアはインスタンスのコストに含まれているため、このサービスで追加料金が発生することはありません。
NVMe インスタンスストアは、それらをサポートする EC2 インスタンスにのみマウントされます。NVMe がサポートされているインスタンスストアを持つ EC2 インスタンスの詳細については、「使用可能なインスタンスストアボリューム」を参照して、NVMe がサポートされていることを確認します。
ディスクのパフォーマンスを向上させ、初回書き込みのペナルティを減らすために、インスタンスストアを初期化できます (EC2 インスタンスタイプによってはこのプロセスに数時間かかる場合があります) - EC2 インスタンスでインスタンスストアボリュームを初期化する
注: NVMe インスタンスストアはインスタンスにマウントされ、EBS などのネットワークにはアタッチされません。これらの NVMe ボリュームのデータは、インスタンスの再起動または停止時に失われる可能性があります。
リリース日: 2023-04-17
AMI 名: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230414
更新
AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} から Deep Learning Base GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD} に DLAMI 名を更新
必要なサポートのために、このリリースから 1 か月間、古い AMI 名を持つ最新の DLAMI がサポートされることに注意してください。お客様は、OS パッケージ apt-get 更新 && apt-get アップグレードを更新して、セキュリティパッチを使用できます。
AWS OFI NCCL プラグインパスを /usr/local/cuda-xx.x/efa/ から /opt/aws-ofi-nccl/ に更新
NCCL を v2.16.2 のカスタム GIT ブランチ
に更新し、すべての CUDA バージョンについて AWS と NCCL チームによって共同作成されました。 AWS インフラストラクチャのパフォーマンスが向上します。
を追加
/usr/local/cuda-12.0 に CUDA12.0 を追加usr/local/cuda-12
追加された AWS FSx
/usr/bin/python3.9 で Python バージョン 3.9 のサポートを追加
この変更はデフォルトのシステム Python を置き換えるものではなく、python3 は引き続きシステム Python3.8 を指すことに注意してください。
Python3.9 には、次のコマンドを使用してアクセスできます。
/usr/bin/python3.9 python3.9
削除済み
フレームワークサポートポリシーに基づいてサポートされているフレームワークバージョンで使用されていないため、CUDA11.0-11.1 を /usr/local/cuda-11.x/ から削除しました。
リリース日: 2022-05-25
AMI 名: AWS 深層学習ベース AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
更新
このリリースでは、新しい EC2 インスタンス p4de.24xlarge のサポートが追加されました。
aws-efa-installer をバージョン 1.15.2 に更新
aws-ofi-nccl をバージョン 1.3.0-aws に更新しました。これには p4de.24xlarge のトポロジが含まれています。
リリース日: 2022-03-25
AMI 名: AWS 深層学習ベース AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
更新
EFA バージョンを 1.15.0 から 1.15.1 に更新
リリース日: 2022-03-17
AMI 名: AWS 深層学習ベース AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
を追加
初回リリース