AWS Deep Learning Base GPU AMI (Ubuntu 22.04) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning Base GPU AMI (Ubuntu 22.04)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

  • DLAMI の重要な変更点を参照してください。

  • OSS Nvidia ドライバーを使用した Deep Learning G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200 をサポートしています。

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 22.04

  • コンピューティングアーキテクチャ: x86

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux カーネル: 6.8

    • FSx Lustre

    • Docker

    • AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1

    • NVIDIA DCGM

    • Nvidia コンテナツールキット

      • バージョンコマンド: nvidia-container-cli -V

    • Nvidia-docker2

      • Version コマンド: nvidia-docker バージョン

  • NVIDIA ドライバー: 570.133.20

  • NVIDIA CUDA12.4-12.6 および 12.8 スタック

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

      • 例: /usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/

    • コンパイル済み NCCL バージョン: 2.26.5

    • デフォルトの CUDA: 12.8

      • PATH /usr/local/cuda が CUDA 12.8 を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib64 を含める

        • /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ を持つ PATH

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.40.0

  • Nvidia GDRCopy: 2.5

  • AWS OFI NCCL: 1.14.2-aws

    • インストールパス: /opt/amazon/ofi-nccl/ 。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。

  • AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1

  • EBS ボリュームタイプ: gp3

  • Python: /usr/bin/python3.10

  • NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

NVIDIA Container Toolkit 1.17.4

Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「If you use a CUDA compatibility layer」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

EFA 1.37 から 1.38 への更新 (2025-01-31 にリリース)

EFA が AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

マルチ ENI サポート
  • Ubuntu 22.04 は、初期起動時に cloud-init を使用して、複数の NICss でソースルーティングを自動的にセットアップおよび設定します。インスタンスの停止中にワークフローに ENIs のアタッチ/デタッチが含まれている場合は、これらのイベント中に NIC の適切な設定を確保するために、cloud-init ユーザーデータに追加の設定を追加する必要があります。クラウド設定の例を以下に示します。

  • インスタンスのクラウド設定の設定方法の詳細については、こちらの正規ドキュメントを参照してください - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-setup-multiple-nics/

#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

サポートポリシー

CUDA バージョンなどのこの AMI のこれらの AMIs コンポーネントは、フレームワークのサポートポリシーに基づいて削除および変更したり、深層学習コンテナのパフォーマンスを最適化したり、将来のリリース で AMI サイズを削減したりするために、予告なしに削除および変更されることがあります。サポートされているフレームワークバージョンで使用されていない場合、AMIs から CUDA バージョンを削除します。

複数のネットワークカードを持つ EC2 インスタンス
  • EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。

  • DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。

    • プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) の場合は、EFA (EFA with ENA) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。

    • 追加のネットワークインターフェイスごとに、ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、次に未使用のネットワークカードインデックス、デバイスインデックス 1、EFA (EFA with ENA) または EFA のみのネットワークインターフェイスを使用します。ユースケースの例については、P5 インスタンスの EFA 設定」を参照してください。

    • 詳細については、https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-acc-inst-types.html「EFA ガイド」を参照してください。

P6-B200 インスタンス

P6-B200 には 8 つのネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス

P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e インスタンス

P5 および P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
  • カーネルバージョンは コマンドを使用して固定されます。

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-05-16

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250516

を追加

  • P6-B200 EC2 インスタンスのサポートを追加

更新

  • EFA インストーラをバージョン 1.39.0 から 1.40.0 にアップグレードしました

  • AWS OFI NCCL プラグインをバージョン 1.13.0-aws から 1.14.2-aws にアップグレードする

  • コンパイル済み NCCL バージョンをバージョン 2.22.3 から 2.26.5 に更新

  • デフォルトの CUDA バージョンをバージョン 12.6 から 12.8 に更新

  • Nvidia DCGM バージョンを 3.3.9 から 4.4.3 に更新

リリース日: 2025-05-05

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250503

更新

  • GDRCopy を 2.4.1 から 2.5.1 にアップグレードしました

リリース日: 2025-04-24

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250424

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.124.06 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

リリース日: 2025-02-17

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250214

更新

削除済み

リリース日: 2025-02-07

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250205

を追加

  • ディレクトリ /usr/local/cuda-12.6 に CUDA ツールキットバージョン 12.6 を追加

削除済み

  • CUDA バージョン 12.1 および 12.2 がこの DLAMI から削除されました。お客様は、以下のリンクを使用して NVIDIA からこれらのバージョンをインストールできます。

リリース日: 2025-01-31

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250131

更新

  • EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました

    • EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

  • Nvidia Container Toolkit を 1.17.3 から 1.17.4 にアップグレードしました

リリース日: 2025-01-17

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250117

更新

  • 2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5614

リリース日: 2024-11-18

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20241115

を追加

  • Lustre サポート用の Amazon FSx パッケージを追加しました。

[固定]

  • カーネルアドレススペースレイアウト分割 (KASLR) 機能 の欠陥に対処するために Ubuntu カーネルが変更されているため、G4Dn/G5 インスタンスは OSS Nvidia ドライバーで CUDA を適切に初期化できません。この問題を軽減するために、この DLAMI には、G4Dn および G5 インスタンスの独自のドライバーを動的にロードする機能が含まれています。インスタンスが正しく動作するように、このロードには短い初期化期間を設けてください。

    このサービスのステータスと状態を確認するには、次のコマンドを使用します。

sudo systemctl is-active dynamic_driver_load.service active

リリース日: 2024-10-23

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20241023

更新

  • 2024 年 550.90.070 月の NVIDIA GPU ディスプレイセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン から 550.127.05 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5586

リリース日: 2024-10-01

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240930

更新

  • Nvidia ドライバーと Fabric Manager をバージョン 535.183.01 から 550.90.07 にアップグレード

  • Nvidia Container Toolkit をバージョン 1.16.1 から 1.16.2 にアップグレードし、セキュリティ脆弱性 CVE-2024-0133 に対応しました。

  • EFA バージョンを 1.32.0 から 1.34.0 にアップグレードしました

  • すべての CUDA バージョンで NCCL を最新バージョン 2.22.3 にアップグレードしました

    • CUDA 12.1、12.2 を 2.18.5+CUDA12.2 からアップグレード

    • バージョン 2.21.5+CUDA12.4 からアップグレードされた CUDA12.3

を追加

  • ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 を追加

  • P5e EC2 インスタンスのサポートが追加されました。

リリース日: 2024-08-19

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240816

を追加

リリース日: 2024-06-06

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240606

更新

  • Nvidia ドライバーのバージョンを 535.183.01 から 535.161.08 に更新

リリース日: 2024-05-15

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240513

削除済み

  • Amazon FSx for Lustre のサポートは、最新の Ubuntu 22.04 カーネルバージョンとの互換性がないため、このリリースで削除されました。FSx for Lustre のサポートは、最新のカーネルバージョンがサポートされると再開されます。FSx for Lustre を必要とするお客様は、引き続き Deep Learning Base GPU AMI (Ubuntu 20.04) を使用する必要があります。

リリース日: 2024-04-29

AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240429

を追加

  • Deep Learning Base OSS DLAMI for Ubuntu 22.04 の初回リリース