AWS Deep Learning Base GPU AMI (Amazon Linux 2023) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning Base GPU AMI (Amazon Linux 2023)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) ${YYYY-MM-DD}

サポートされている EC2 インスタンス

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Amazon Linux 2023

  • コンピューティングアーキテクチャ: x86

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux カーネル: 6.1

    • FSx Lustre

    • NVIDIA GDS

    • Docker

    • AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1

    • NVIDIA DCGM

    • Nvidia コンテナツールキット

      • バージョンコマンド: nvidia-container-cli -V

    • Nvidia-docker2

      • Version コマンド: nvidia-docker バージョン

  • NVIDIA ドライバー: 570.133.20

  • NVIDIA CUDA12.4-12.6 および 12.8 スタック

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

      • 例: /usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/

    • コンパイル済み NCCL バージョン: 2.26.5

    • デフォルトの CUDA: 12.8

      • PATH /usr/local/cuda が CUDA 12.8 を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib を付ける

        • /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ を持つ PATH

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.40.0

  • Nvidia GDRCopy: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました

    • インストールパス: /opt/amazon/ofi-nccl/ 。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。

  • AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1

  • EBS ボリュームタイプ: gp3

  • Python: /usr/bin/python3.9

  • NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1)。

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

NVIDIA Container Toolkit 1.17.4

Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「 CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

サポートポリシー

CUDA バージョンなど、この AMI のこれらの AMIs コンポーネントは、フレームワークのサポートポリシーに基づいて削除および変更したり、深層学習コンテナのパフォーマンスを最適化したり、将来のリリースで AMI サイズを事前に通知することなく縮小したりできます。サポートされているフレームワークバージョンで使用されていない場合、AMIs から CUDA バージョンは削除されます。

P6-B200 インスタンス

P6-B200 インスタンスには 8 つのネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス

P5en インスタンスには 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e インスタンス

P5 インスタンスと P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
  • カーネルバージョンは、 コマンドを使用して固定されます。

    sudo dnf versionlock kernel*
  • インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-05-15

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250515

を追加

更新

  • EFA インストーラをバージョン 1.38.1 から 1.40.0 にアップグレードしました

  • GDRCopy をバージョン 2.4 から 2.5 にアップグレードしました

  • AWS OFI NCCL プラグインをバージョン 1.13.0-aws から 1.14.2-aws にアップグレードしました

  • コンパイル済み NCCL バージョンをバージョン 2.25.1 から 2.26.5 に更新

  • デフォルトの CUDA バージョンをバージョン 12.6 から 12.8 に更新

  • Nvidia DCGM バージョンを 3.3.9 から 4.4.3 に更新

リリース日: 2025-04-22

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250421

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.124.06 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

リリース日: 2025-03-31

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250328

を追加

リリース日: 2025-02-17

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250215

更新

削除済み

リリース日: 2025-02-05

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250205

を追加

  • ディレクトリ /usr/local/cuda-12.6 に CUDA ツールキットバージョン 12.6 を追加

  • G5 EC2 インスタンスのサポートを追加

削除済み

  • CUDA バージョン 12.1 および 12.2 がこの DLAMI から削除されました。これらの CUDA ツールキットバージョンを必要とするお客様は、以下のリンクを使用して NVIDIA から直接インストールできます。

リリース日: 2025-02-03

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250131

更新

  • EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました

    • EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

  • Nvidia Container Toolkit を 1.17.3 から 1.17.4 にアップグレードしました

リリース日: 2025-01-08

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20250107

更新

リリース日: 2024-12-09

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241206

更新

  • Nvidia Container Toolkit をバージョン 1.17.0 から 1.17.3 にアップグレードしました

リリース日: 2024-11-21

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241121

を追加

  • P5en EC2 インスタンスのサポートが追加されました。

更新

  • EFA インストーラをバージョン 1.35.0 から 1.37.0 にアップグレードしました

  • AWS OFI NCCL プラグインをバージョン 1.121-aws から 1.13.0-aws にアップグレードする

リリース日: 2024-10-30

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Amazon Linux 2023) 20241030

を追加

  • Amazon Linux 2023 用 Deep Learning Base OSS DLAMI の初回リリース

既知の問題

  • この DLAMI は、現時点では G4dn および G5 EC2 インスタンスをサポートしていません。 AWS は、オープンソースの NVIDIA ドライバーを Linux カーネルバージョン 6.1 以降と併用すると、CUDA の初期化に失敗し、G4dn および G5 インスタンスファミリーの両方に影響する可能性がある非互換性を認識しています。この問題は、Amazon Linux 2023、Ubuntu 22.04 以降、SUSE Linux Enterprise Server 15 SP6 以降などの Linux ディストリビューションに影響します。