AWS Deep Learning AMI GPU PyTorch 2.5 (Ubuntu 22.04) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning AMI GPU PyTorch 2.5 (Ubuntu 22.04)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.${PATCH_VERSION} (Ubuntu 22.04) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

  • DLAMI の重要な変更点を参照してください。

  • OSS Nvidia ドライバーを使用した Deep Learning はG4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5enをサポートしています。

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 22.04

  • コンピューティングアーキテクチャ: x86

  • Python: /opt/conda/envs/pytorch/bin/python

  • NVIDIA ドライバー

    • OSS Nvidia ドライバー: 550.144.03

  • NVIDIA CUDA12.4 スタック

    • CUDA、NCCL、および cuDDN インストールパス: /usr/local/cuda-12.4/

    • デフォルトの CUDA: 12.4

      • PATH /usr/local/cuda が /usr/local/cuda-12.4/ を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib を付ける

        • /usr/local/cuda/bin/:/usr/local/cuda/include/ を持つ PATH

    • /usr/local/cuda/ に存在するコンパイル済みシステム NCCL バージョン: 2.21.5

    • PyTorch conda 環境からの PyTorch コンパイル NCCL バージョン: 2.21.5

  • NCCL テストの場所:

    • all_reduce、all_gather、Reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

    • NCCL テストを実行するために、LD_LIBRARY_PATH は既に で更新されており、必要なパスがあります。

      • 一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH が CUDA バージョンパスで更新されました

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • EFA インストーラ: 1.34.0

  • Nvidia GDRCopy: 2.4.1

  • Nvidia Transformer エンジン: v1.11.0

  • AWS OFI NCCL: 1.11.0-aws

    • インストールパス: /opt/aws-ofi-nccl/ 。パス /opt/aws-ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。

    • ring, message_transfer のテストパス: /opt/aws-ofi-nccl/tests

    • 注: PyTorch パッケージには動的にリンクされた AWS OFI NCCL プラグインが conda パッケージ aws-ofi-nccl-dlc パッケージとしても付属しており、PyTorch はシステム AWS OFI NCCL の代わりにそのパッケージを使用します。

  • AWS CLI v2 as aws2 および AWS CLI v1 as aws

  • EBS ボリュームタイプ: gp3

  • Python バージョン: 3.11

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1)。

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

P5/P5e インスタンス:

  • DeviceIndex は各 NetworkCard に固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。以下は、awscli を使用した EC2 P5 インスタンス起動コマンドの例です。最初のインターフェイスでは NetworkCardIndex が 0~31 でDeviceIndex が 0 で、残りの 31 インターフェイスでは DeviceIndex が 1 です。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
  • カーネルバージョンは、 コマンドを使用して固定されます。

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • インストールされているドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-02-17

AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250216

更新

削除済み

リリース日: 2025-01-21

AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250119

更新

  • 2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するため、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました。 https://nvidia.custhelp.com/app/answers/detail/a_id/5614

リリース日: 2024-11-21

AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20241121

を追加

  • Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) シリーズの初期リリース。NVIDIA Driver R550、CUDA=12.4.1、cuDNN=8.9.7、PyTorch NCCL=2.21.5、EFA=1.37.0 で補完された conda 環境 pytorch を含める。

[固定]

  • カーネルアドレススペースレイアウト分割 (KASLR) 機能の欠陥に対応するために Ubuntu カーネルが変更されているため、G4Dn/G5 インスタンスは OSS Nvidia ドライバーで CUDA を適切に初期化できません。この問題を軽減するために、この DLAMI には、G4Dn および G5 インスタンスの独自のドライバーを動的にロードする機能が含まれています。インスタンスが正しく動作するように、このロードには短い初期化期間を設けてください。

    • このサービスのステータスと状態を確認するには、次のコマンドを使用します。

sudo systemctl is-active dynamic_driver_load.service active