AWS Deep Learning ARM64 Base GPU AMI (Amazon Linux 2023) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning ARM64 Base GPU AMI (Amazon Linux 2023)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning ARM64 Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

  • G5g, P6e-GB200(CUDA>=12.8 は P6e-GB200 でサポートされています)

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Amazon Linux 2023

  • コンピューティングアーキテクチャ: ARM64

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux カーネル: 6.12

    • FSx Lustre

    • Docker

    • /usr/bin/aws での AWS CLI v2

    • NVIDIA DCGM

    • Nvidia コンテナツールキット

      • バージョンコマンド: nvidia-container-cli -V

    • Nvidia-docker2

      • Version コマンド: nvidia-docker バージョン

  • NVIDIA ドライバー: 570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 スタック

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

      • 例: /usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/

    • コンパイルされた NCCL バージョン

      • 12.4 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.4

      • 12.5 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.5

      • 12.6 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.24.3+CUDA12.6

      • 12.8 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.27.5+CUDA12.8

    • デフォルトの CUDA: 12.8

      • PATH /usr/local/cuda が CUDA 12.8 を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 を使用する

        • /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ を持つ PATH

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS OFI NCCL プラグインに EFA インストーラが付属

    • パス /opt/amazon/ofi-nccl/lib および /opt/amazon/ofi-nccl/efa が LD_LIBRARY_PATH に追加されます。

  • /usr/local/bin/aws の AWS CLI v2

  • EBS ボリュームタイプ: gp3

  • Python: /usr/bin/python3.9

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
P6e-GB200 インスタンス

P6e-GB200 インスタンスには 17 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

注意

NVIDIA Container Toolkit 1.17.4

Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「 CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

サポートポリシー

CUDA バージョンなどのこの AMI のこれらの AMIs コンポーネントは、フレームワークサポートポリシーに基づいて削除および変更したり、深層学習コンテナのパフォーマンスを最適化したり、将来のリリース で AMI サイズを縮小したりするために、予告なしに削除および変更されることがあります。サポートされているフレームワークバージョンで使用されていない場合、AMIs から CUDA バージョンを削除します。

カーネル
  • カーネルバージョンは コマンドを使用して固定されます。

    sudo dnf versionlock kernel*
  • インストールされているドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-07-04

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250704

更新

  • EC2 インスタンス P6e-GB200 のサポートが追加されました。CUDA>=12.8 は P6e-GB200 でサポートされています。

  • EFA 1.42.0 の追加

  • Nvidia ドライバーをバージョン 570.133.20 から 570.158.01 にアップグレードしました

  • NCCL 2.27.5 で CUDA 12.8 スタックをアップグレード

リリース日: 2025-04-24

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250424

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.86.15 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

  • CUDA12.8 スタックを NCCL 2.26.2 で更新

  • デフォルトの CUDA を 12.6 から 12.8 に更新

リリース日: 2025-04-22

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.124.06 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

リリース日: 2025-04-04

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250404

更新

  • カーネルバージョンが 6.1 から 6.12 に更新されました

リリース日: 2025-03-03

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250303

更新

  • 550.144.03 から 570.86.15 までの Nvidia ドライバー

  • デフォルトの CUDA が CUDA12.4 から CUDA12.6 に変更されました

を追加

  • コンパイル済み NCCL バージョン 2.22.3+CUDA12.5 および CuDNN 9.7.1.26 を使用した CUDA12 ディレクトリ

  • コンパイル済み NCCL バージョン 2.24.3+CUDA12.6 および CuDNN 9.7.1.26 を使用する CUDA12 ディレクトリ

  • コンパイル済み NCCL バージョン 2.25.1+CUDA12.8 および CuDNN 9.7.1.26 を使用する CUDA12 ディレクトリ

リリース日: 2025-02-14

AMI 名: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250214

を追加

  • Deep Learning ARM64 Base OSS DLAMI for Amazon Linux 2023 の初回リリース