AWS Deep Learning AMI GPU PyTorch 2.5 (Amazon Linux 2023) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning AMI GPU PyTorch 2.5 (Amazon Linux 2023)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

  • DLAMI の重要な変更点を参照してください。

  • OSS Nvidia ドライバーによる深層学習は、G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en をサポートしています。

AMI には以下が含まれます。

  • サポートされている AWS サービス: EC2

  • オペレーティングシステム: Amazon Linux 2023

  • コンピューティングアーキテクチャ: x86

  • NVIDIA CUDA12.4 スタック

    • CUDA、NCCL、および cuDDN インストールパス: /usr/local/cuda-12.4/

    • デフォルトの CUDA: 12.4

      • PATH /usr/local/cuda が /usr/local/cuda-12.4/ を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib を含める

        • /usr/local/cuda/bin/:/usr/local/cuda/include/ を持つ PATH

    • 12.4 のコンパイル済み NCCL バージョン: 2.21.5

  • NCCL テストの場所:

    • all_reduce、all_gather、および reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

    • NCCL テストを実行するために、LD_LIBRARY_PATH はすでに必要なパスで更新されています。

      • 一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH が CUDA バージョンパスで更新されました

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • EFA インストーラ: 1.38.0

  • Nvidia GDRCopy: 2.4.1

  • AWS OFI NCCL: 1.13.2-aws

    • AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました

    • インストールパス: /opt/aws-ofi-nccl/ 。パス /opt/aws-ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。

    • ring, message_transfer のテストパス: /opt/aws-ofi-nccl/tests

  • Python バージョン: 3.11

  • Python: /opt/conda/envs/pytorch/bin/python

  • NVIDIA ドライバー: 560.35.03

  • /usr/bin/aws での AWS CLI v2

  • EBS ボリュームタイプ: gp3

  • NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

P5/P5e インスタンス:

  • DeviceIndex は各 NetworkCard に固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。以下は、awscli を使用した EC2 P5 インスタンス起動コマンドの例です。最初のインターフェイスでは NetworkCardIndex が 0~31 でDeviceIndex が 0 で、残りの 31 インターフェイスでは DeviceIndex が 1 です。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
  • カーネルバージョンは コマンドを使用して固定されます。

    sudo dnf versionlock kernel*
  • インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-02-17

AMI 名: 深層学習 OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216

更新

削除済み

リリース日: 2025-01-08

AMI 名: 深層学習 OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107

を追加

リリース日: 2024-11-21

AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120

を追加

  • Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 for Amazon Linux 2023 の初回リリース

既知の問題

  • この DLAMI は、現時点では G4dn および G5 EC2 インスタンスをサポートしていません。 AWS は、CUDA 初期化の失敗につながる可能性がある非互換性を認識しており、オープンソースの NVIDIA ドライバーを Linux カーネルバージョン 6.1 以降と併用するとG4dn および G5 インスタンスファミリーの両方に影響します。この問題は、Amazon Linux 2023、Ubuntu 22.04 以降、SUSE Linux Enterprise Server 15 SP6 以降などの Linux ディストリビューションに影響します。