翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Deep Learning Base GPU AMI (Amazon Linux 2023)
開始方法については、「」を参照してくださいDLAMI の使用開始。
AMI 名形式
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) ${YYYY-MM-DD}
サポートされている EC2 インスタンス
OSS Nvidia ドライバーによる深層学習はG4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200 をサポートしています。
AMI には以下が含まれます。
サポートされている AWS サービス: Amazon EC2
オペレーティングシステム: Amazon Linux 2023
コンピューティングアーキテクチャ: x86
利用可能な最新バージョンは、次のパッケージにインストールされます。
Linux カーネル: 6.1
FSx Lustre
NVIDIA GDS
Docker
AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1
NVIDIA DCGM
Nvidia コンテナツールキット:
バージョンコマンド: nvidia-container-cli -V
Nvidia-docker2:
Version コマンド: nvidia-docker バージョン
NVIDIA ドライバー: 570.133.20
NVIDIA CUDA12.4-12.6 および 12.8 スタック:
CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/
例: /usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/
コンパイル済み NCCL バージョン: 2.26.5
デフォルトの CUDA: 12.8
PATH /usr/local/cuda が CUDA 12.8 を指す
以下の env vars を更新しました。
LD_LIBRARY_PATH に /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib を付ける
/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ を持つ PATH
別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。
EFA インストーラ: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました
インストールパス: /opt/amazon/ofi-nccl/ 。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。
AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1
EBS ボリュームタイプ: gp3
Python: /usr/bin/python3.9
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme
SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
NVIDIA Container Toolkit 1.17.4
Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「 CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
サポートポリシー
CUDA バージョンなど、この AMI のこれらの AMIs コンポーネントは、フレームワークのサポートポリシーに基づいて削除および変更したり、深層学習コンテナ
P6-B200 インスタンス
P6-B200 インスタンスには 8 つのネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
P5en インスタンスには 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e インスタンス
P5 インスタンスと P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
-
カーネルバージョンは、 コマンドを使用して固定されます。
sudo dnf versionlock kernel*
-
インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
sudo dnf versionlock delete kernel* sudo dnf update -y
DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025-05-15
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250515
を追加
P6-B200 EC2 インスタンス
のサポートを追加
更新
EFA インストーラをバージョン 1.38.1 から 1.40.0 にアップグレードしました
GDRCopy をバージョン 2.4 から 2.5 にアップグレードしました
AWS OFI NCCL プラグインをバージョン 1.13.0-aws から 1.14.2-aws にアップグレードしました
コンパイル済み NCCL バージョンをバージョン 2.25.1 から 2.26.5 に更新
デフォルトの CUDA バージョンをバージョン 12.6 から 12.8 に更新
Nvidia DCGM バージョンを 3.3.9 から 4.4.3 に更新
リリース日: 2025-04-22
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250421
更新
2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.124.06 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630
リリース日: 2025-03-31
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250328
を追加
NVIDIA GPU Direct Storage (GDS)
のサポートを追加
リリース日: 2025-02-17
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250215
更新
NVIDIA Container Toolkit をバージョン 1.17.3 からバージョン 1.17.4 に更新しました
詳細については、「https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
」のリリースノートページを参照してください。 Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
削除済み
2025 年 2 月 18 日の NVIDIA CUDA Toolkit
Security Bulletin にある CVEs に対応するために NVIDIA CUDA ツールキットが提供するユーザースペースライブラリ cuobj と nvdisasm を削除 https://nvidia.custhelp.com/app/answers/detail/a_id/5594
リリース日: 2025-02-05
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250205
を追加
ディレクトリ /usr/local/cuda-12.6 に CUDA ツールキットバージョン 12.6 を追加
G5 EC2 インスタンスのサポートを追加
削除済み
CUDA バージョン 12.1 および 12.2 がこの DLAMI から削除されました。これらの CUDA ツールキットバージョンを必要とするお客様は、以下のリンクを使用して NVIDIA から直接インストールできます。
リリース日: 2025-02-03
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250131
更新
EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました
EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
Nvidia Container Toolkit を 1.17.3 から 1.17.4 にアップグレードしました
リリース日: 2025-01-08
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250107
更新
G4dn インスタンス
のサポートを追加
リリース日: 2024-12-09
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241206
更新
Nvidia Container Toolkit をバージョン 1.17.0 から 1.17.3 にアップグレードしました
リリース日: 2024-11-21
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241121
を追加
P5en EC2 インスタンスのサポートが追加されました。
更新
EFA インストーラをバージョン 1.35.0 から 1.37.0 にアップグレードしました
AWS OFI NCCL プラグインをバージョン 1.121-aws から 1.13.0-aws にアップグレードする
リリース日: 2024-10-30
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241030
を追加
Amazon Linux 2023 用 Deep Learning Base OSS DLAMI の初回リリース
既知の問題
この DLAMI は、現時点では G4dn および G5 EC2 インスタンスをサポートしていません。 AWS は、オープンソースの NVIDIA ドライバーを Linux カーネルバージョン 6.1 以降と併用すると、CUDA の初期化に失敗し、G4dn および G5 インスタンスファミリーの両方に影響する可能性がある非互換性を認識しています。この問題は、Amazon Linux 2023、Ubuntu 22.04 以降、SUSE Linux Enterprise Server 15 SP6 以降などの Linux ディストリビューションに影響します。