翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Deep Learning AMI GPU PyTorch 2.6 (Amazon Linux 2023)
開始方法については、「」を参照してくださいDLAMI の使用開始。
AMI 名形式
Deep Learning OSS NVIDIA Driver AMI GPU PyTorch 2.6.0 (Amazon Linux 2023) ${YYYY-MM-DD}
サポートされている EC2 インスタンス:
「DLAMI の重要な変更点」を参照してください。
OSS NVIDIA ドライバーによる深層学習が G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en をサポート
AMI には以下が含まれます。
サポートされている AWS サービス: EC2
オペレーティングシステム: Amazon Linux 2023
コンピューティングアーキテクチャ: x86
NVIDIA CUDA12.6 スタック:
CUDA、NCCL、および cuDDN インストールパス: /usr/local/cuda-12.6/
-
デフォルトの CUDA:12.6
PATH /usr/local/cudapoints から /usr/local/cuda-12.6/
-
以下の env vars を更新しました。
LD_LIBRARY_PATH に /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib を含める
/usr/local/cuda/bin/:/usr/local/cuda/include/ を持つ PATH
12.6 のコンパイル済み NCCL バージョン: 2.24.3
NCCL テストの場所:
all_reduce、all_gather、Reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
-
NCCL テストを実行するために、LD_LIBRARY_PATH は既に で更新されており、必要なパスがあります。
一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PATH が CUDA バージョンパスで更新されました
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
EFA インストーラ: 1.38.0
Nvidia GDRCopy:2.4.1
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました
インストールパス:/opt/amazon/ofi-nccl/。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。
Python バージョン:3.12
Python: /opt/pytorch/bin/python
NVIDIA ドライバー:570.86.15
AWS CLI v2at /usr/bin/aws
EBS ボリュームタイプ: gp3
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス):/opt/dlami/nvme
SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
Anaconda チャネルの PyTorch 廃止
PyTorch 2.6 以降、PyTorch は Conda のサポートを廃止しました (公式発表
DeviceIndex は各 NetworkCard に固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。以下は、awscli を使用した EC2 P5 インスタンス起動コマンドの例です。最初のインターフェイスでは NetworkCardIndex が 0~31 でDeviceIndex が 0 で、残りの 31 インターフェイスでは DeviceIndex が 1 です。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
カーネルバージョンは コマンドを使用して固定されます。
sudo dnf versionlock kernel*
インストールされているドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
sudo dnf versionlock delete kernel* sudo dnf update -y
DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025-02-21
AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.6.0 (Amazon Linux 2023) 20250220
を追加
Amazon Linux 2023 用 Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.6 の初回リリース
PyTorch2.6,Pytorch は Conda のサポートを廃止しました。その結果、Pytorch 2.6 以降は Python 仮想環境の使用に移行します。pytorch venv をアクティブ化するには、ソース /opt/pytorch/bin/activate を使用してください。