翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Deep Learning AMI GPU PyTorch 2.5 (Amazon Linux 2023)
開始方法については、「」を参照してくださいDLAMI の使用開始。
AMI 名形式
Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) ${YYYY-MM-DD}
サポートされる EC2 インスタンス
DLAMI の重要な変更点を参照してください。
OSS Nvidia ドライバーによる深層学習は、G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en をサポートしています。
AMI には以下が含まれます。
サポートされている AWS サービス: EC2
オペレーティングシステム: Amazon Linux 2023
コンピューティングアーキテクチャ: x86
NVIDIA CUDA12.4 スタック:
CUDA、NCCL、および cuDDN インストールパス: /usr/local/cuda-12.4/
-
デフォルトの CUDA: 12.4
PATH /usr/local/cuda が /usr/local/cuda-12.4/ を指す
-
以下の env vars を更新しました。
LD_LIBRARY_PATH に /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib を含める
/usr/local/cuda/bin/:/usr/local/cuda/include/ を持つ PATH
12.4 のコンパイル済み NCCL バージョン: 2.21.5
NCCL テストの場所:
all_reduce、all_gather、および reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
-
NCCL テストを実行するために、LD_LIBRARY_PATH はすでに必要なパスで更新されています。
一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH が CUDA バージョンパスで更新されました
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA インストーラ: 1.38.0
Nvidia GDRCopy: 2.4.1
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました
インストールパス: /opt/aws-ofi-nccl/ 。パス /opt/aws-ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。
ring, message_transfer のテストパス: /opt/aws-ofi-nccl/tests
Python バージョン: 3.11
Python: /opt/conda/envs/pytorch/bin/python
NVIDIA ドライバー: 560.35.03
/usr/bin/aws での AWS CLI v2
EBS ボリュームタイプ: gp3
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme
SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):
OSS Nvidia ドライバー:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):
OSS Nvidia ドライバー:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
P5/P5e インスタンス:
DeviceIndex は各 NetworkCard に固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。以下は、awscli を使用した EC2 P5 インスタンス起動コマンドの例です。最初のインターフェイスでは NetworkCardIndex が 0~31 でDeviceIndex が 0 で、残りの 31 インターフェイスでは DeviceIndex が 1 です。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
カーネルバージョンは コマンドを使用して固定されます。
sudo dnf versionlock kernel*
インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
sudo dnf versionlock delete kernel* sudo dnf update -y
DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025-02-17
AMI 名: 深層学習 OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216
更新
NVIDIA Container Toolkit をバージョン 1.17.3 からバージョン 1.17.4 に更新しました
詳細については、「https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
。 Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
削除済み
リリース日: 2025-01-08
AMI 名: 深層学習 OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107
を追加
G4dn インスタンス
のサポートを追加しました。
リリース日: 2024-11-21
AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120
を追加
Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 for Amazon Linux 2023 の初回リリース
既知の問題
この DLAMI は、現時点では G4dn および G5 EC2 インスタンスをサポートしていません。 AWS は、CUDA 初期化の失敗につながる可能性がある非互換性を認識しており、オープンソースの NVIDIA ドライバーを Linux カーネルバージョン 6.1 以降と併用するとG4dn および G5 インスタンスファミリーの両方に影響します。この問題は、Amazon Linux 2023、Ubuntu 22.04 以降、SUSE Linux Enterprise Server 15 SP6 以降などの Linux ディストリビューションに影響します。