AWS Deep Learning Base AMI (Amazon Linux 2) - AWS Deep Learning AMIs
AMI 名形式サポートされる EC2 インスタンスAMI のコンテンツ注意リリース日: 2025-04-22リリース日: 2025-02-17リリース日: 2025-02-04リリース日: 2025-01-17リリース日: 2025-01-06リリース日: 2024-12-09リリース日: 2024-11-09リリース日: 2024-10-22リリース日: 2024-10-03リリース日: 2024-08-27リリース日: 2024-08-19リリース日: 2024-06-06リリース日: 2024-05-02リリース日: 2024-04-04リリース日: 2024-03-29リリース日: 2024-03-20リリース日: 2024-03-13リリース日: 2024-02-13リリース日: 2024-02-01バージョン 61.4バージョン 61.0バージョン 60.6バージョン 60.5バージョン 60.2バージョン 60.0バージョン 59.2バージョン 59.1バージョン 58.9バージョン 58.0バージョン 57.3バージョン 56.8バージョン 56.0バージョン 55.0バージョン 54.0バージョン 53.3バージョン 53.0バージョン 52.0バージョン 51.0バージョン 50.0バージョン 49.0バージョン 48.0バージョン 47.0バージョン 46.0バージョン 45.0バージョン 44.0バージョン 43.0バージョン 42.0バージョン 41.0バージョン 40.0バージョン 39.0バージョン 38.0バージョン 37.0バージョン 36.1バージョン 36.0バージョン 35.0バージョン 34.3バージョン 34.2バージョン 34.0バージョン 33.0バージョン 32.0バージョン 31.0バージョン 30.0バージョン 29.0バージョン 28.0バージョン 27.0バージョン 26.0バージョン 25.0バージョン 24.1バージョン 24.0バージョン 23.0バージョン 22.0

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning Base AMI (Amazon Linux 2)

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン ${XX.X}

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン ${XX.X}

サポートされる EC2 インスタンス

  • DLAMI の重要な変更点を参照してください。

  • OSS Nvidia ドライバーによる深層学習で G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en をサポート

  • 独自の Nvidia ドライバーを使用した Deep Learning が G3 (G3.16x はサポートされていません)、P3, P3dn をサポート

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Amazon Linux 2

  • コンピューティングアーキテクチャ: x86

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux カーネル: 5.10

    • Docker

    • AWS CLI v2at /usr/local/bin/aws2 および AWS CLI v1at /usr/bin/aws

    • Nvidia コンテナツールキット

      • バージョンコマンド: nvidia-container-cli -V

    • Nvidia-docker2

      • Version コマンド: nvidia-docker バージョン

  • Python: /usr/bin/python3.7

  • NVIDIA ドライバー

    • OSS Nvidia ドライバー:550.163.01

    • 独自の Nvidia ドライバー:550.163.01

  • NVIDIA CUDA 12.1~12.4 スタック

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

    • デフォルトの CUDA:12.1

      • PATH /usr/local/cudapoints toCUDA 12.1

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib を付ける

        • /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ を持つ PATH

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

    • コンパイル済み NCCL バージョン: 2.22.3

    • NCCL テストの場所:

      • all_reduce、all_gather、Reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL テストを実行するには、LD_LIBRARY_PATH が以下の更新に合格する必要があります。

        • 一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.38.0

  • Nvidia GDRCopy:2.4

  • AWS OFI NCCL: 1.13.2

    • AWS OFI NCCL が単一ビルドで複数の NCCL バージョンをサポートするようになりました

    • インストールパス:/opt/amazon/ofi-nccl/。パス /opt/amazon/ofi-nccl/lib64 が LD_LIBRARY_PATH に追加されました。

  • EBS ボリュームタイプ: gp3

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • 独自の Nvidia ドライバー:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • 独自の Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

NVIDIA Container Toolkit 1.17.4

Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「 CUDA 互換レイヤーを使用する場合」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。

EFA 1.37 から 1.38 への更新 (2025-02-04 にリリース)

EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

サポートポリシー

CUDA バージョンなどのこの AMI のこれらの AMIs コンポーネントは、フレームワークサポートポリシーまたは に基づいて削除および変更して、パフォーマンスを詳細に学習するコンテナを最適化したり、将来のリリース で AMI サイズを事前に通知することなく縮小したりできます。サポートされているフレームワークバージョンで使用されていない場合、AMIs から CUDA バージョンを削除します。

複数のネットワークカードを持つ EC2 インスタンス
  • EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。

  • DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。

    • プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) の場合は、EFA (EFA with ENA) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。

    • 追加のネットワークインターフェイスごとに、ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、次に未使用のネットワークカードインデックス、デバイスインデックス 1、EFA (EFA with ENA) または EFA 専用ネットワークインターフェイスを使用します。ユースケースの例については、P5 インスタンスの EFA 設定」を参照してください。

    • 詳細については、EFA ガイドを参照してください

P5/P5e インスタンス
  • P5 および P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
  • P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
  • カーネルバージョンは コマンドを使用して固定されます。

    sudo yum versionlock kernel*
  • インストールされているドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。

    sudo yum versionlock delete kernel* sudo yum update -y
  • DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

リリース日: 2025-04-22

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 69.3

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 67.0

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.144.03 から 550.163.01 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

リリース日: 2025-02-17

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 68.5

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 66.3

更新

削除済み

  • 2025 年 2 月 18 日の NVIDIA CUDA Toolkit Security Bulletin にある CVEs に対応するために、NVIDIA CUDA ツールキットが提供するユーザースペースライブラリ cuobj と nvdisasm を削除しました。 https://nvidia.custhelp.com/app/answers/detail/a_id/5594

リリース日: 2025-02-04

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 68.4

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 66.1

更新

  • EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました

リリース日: 2025-01-17

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 68.3

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 66.0

更新

  • 2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5614

リリース日: 2025-01-06

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 68.2

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.9

更新

  • EFA をバージョン 1.34.0 から 1.37.0 にアップグレードしました

  • AWS OFI NCCL をバージョン 1.11.0 から 1.13.0 にアップグレードしました

リリース日: 2024-12-09

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 68.1

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.8

更新

  • Nvidia Container Toolkit をバージョン 1.17.0 から 1.17.3 にアップグレードしました

リリース日: 2024-11-09

AMI 名
  • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 67.9

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.6

更新

  • Nvidia Container Toolkit をバージョン 1.16.2 から 1.17.0 にアップグレードし、セキュリティ脆弱性 CVE-2024-0134 に対応しました。

リリース日: 2024-10-22

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 67.7

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.4

更新

  • 2024 年 550.90.070 月の NVIDIA GPU ディスプレイセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン から 550.127.05 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5586

リリース日: 2024-10-03

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.2

更新

  • Nvidia Container Toolkit をバージョン 1.16.1 から 1.16.2 にアップグレードし、セキュリティ脆弱性 CVE-2024-0133 に対応しました。

リリース日: 2024-08-27

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 67.0

更新

  • Nvidia ドライバーと Fabric Manager をバージョン 535.183.01 から 550.90.07 にアップグレード

    • Nvidia の推奨事項に基づいて Fabric Manager からマルチユーザーシェル要件を削除

    • 詳細については、Tesla ドライバー 550.90.07 の既知の問題を参照してください。

  • EFA バージョンを 1.32.0 から 1.34.0 にアップグレードしました

  • すべての CUDA バージョンで NCCL を最新バージョン 2.22.3 にアップグレードしました

    • CUDA 12.1、12.2 を 2.18.5+CUDA12.2 からアップグレード

    • CUDA 12.3 を 2.21.5+CUDA12.4 からアップグレード

を追加

  • ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 を追加

  • P5e EC2 インスタンスのサポートが追加されました。

削除済み

  • ディレクトリ /usr/local/cuda-11.8 に存在する CUDA Toolkit バージョン 11.8 スタックを削除

リリース日: 2024-08-19

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 66.3

を追加

  • G6e EC2 インスタンスのサポートが追加されました。

リリース日: 2024-06-06

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 65.4

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 63.9

更新

  • Nvidia ドライバーのバージョンを 535.183.01 から 535.161.08 に更新

リリース日: 2024-05-02

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 64.7

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 63.2

更新

  • EFA バージョンをバージョン 1.30 からバージョン 1.32 に更新

  • AWS OFI NCCL プラグインをバージョン 1.7.4 からバージョン 1.9.1 に更新

  • Nvidia コンテナツールキットをバージョン 1.13.5 からバージョン 1.15.0 に更新

を追加

削除済み

  • /usr/local/cuda-CUDA11.7 および /usr/local/cuda-12.0 に存在する CUDA1211.7、CUDA12.0 スタックを削除usr/local/cuda-11usr/local/cuda-12

  • nvidia-container-runtime パッケージと nvidia-docker2 パッケージを含まない 1.13.5 から 1.15.0 への Nvidia コンテナツールキットの更新の一環として、nvidia-docker2 パッケージとそのコマンド nvidia-docker を削除しました。

リリース日: 2024-04-04

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 64.0

を追加

  • OSS Nvidia ドライバー DLAMIs G6 および Gr6 EC2 インスタンスのサポートを追加

リリース日: 2024-03-29

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 62.3

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 63.2

更新

  • 独自のドライバー DLAMI と OSS Nvidia ドライバー DLAMI の両方で、Nvidia ドライバーを 535.104.12 から 535.161.08 に更新しました。 DLAMIs

  • DLAMI ごとにサポートされている新しいインスタンスは次のとおりです。

    • 独自の Nvidia ドライバーを使用した Deep Learning が G3 (G3.16x はサポートされていません)、P3, P3dn をサポート

    • OSS Nvidia ドライバーを使用した Deep Learning は、G4dn, G5, P4d, P4de, P5 をサポートしています。

削除済み

  • 独自の Nvidia ドライバー DLAMI から G4dn, G5, G3.16x EC2 インスタンスのサポートを削除しました。

リリース日: 2024-03-20

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 63.1

を追加

  • AMI に awscliv2 を /usr/local/bin/aws2 として追加し、OSS Nvidia ドライバー AMI に awscliv1 を /usr/local/bin/aws として追加しました。

リリース日: 2024-03-13

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 63.0

更新

  • 現在のサポートに基づいて、G4dn および G5 をサポートする OSS Nvidia ドライバー DLAMI が次のように更新されました。

    • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) は、P3, P3dn, G3, G4dn, G5 をサポートしています。

    • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) は、G4dn, G5, P4, P5 をサポートしています。

  • OSS Nvidia ドライバー DLAMIsは、G4dn, G5, P4, P5 に使用することをお勧めします。

リリース日: 2024-02-13

AMI 名
  • Deep Learning Base OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 62.1

  • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 62.1

更新

  • OSS Nvidia ドライバーを 535.129.03 から 535.154.05 に更新

  • EFA を 1.29.0 から 1.30.0 に更新

  • AWS OFI NCCL を 1.7.3-aws から 1.7.4-aws に更新

リリース日: 2024-02-01

AMI 名: Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 62.0

セキュリティ

  • CVE-2024-21626 のパッチを使用するように runc パッケージバージョンを更新しました。

バージョン 61.4

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 61.4

更新

  • OSS Nvidia ドライバーが 535.104.12 から 535.129.03 に更新されました

バージョン 61.0

AMI 名: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 61.4

更新

  • EFA を 1.26.1 から 1.29.0 に更新

  • GDRCopy が 2.3 から 2.4 に更新されました

を追加

  • AWS Deep Learning AMI (DLAMI) は 2 つのグループに分割されます。

    • Nvidia 独自ドライバーを使用する DLAMI (P3, P3dn, G3, G5, G4dn をサポート)。

    • Nvidia OSS ドライバーを使用して EFA を有効にする DLAMI (P4, P5 をサポート)。

  • DLAMI 分割の詳細については、公開発表を参照してください。

  • AWS CLI クエリについては、AWSCLI を使用したクエリ AMI-ID」の箇条書きを参照してください (例: リージョンは us-east-1)

バージョン 60.6

AMI 名: Deep Learning Base AMI (Amazon Linux 2) バージョン 60.6

更新

  • AWS OFI NCCL プラグインがバージョン 1.7.2 からバージョン 1.7.3 に更新されました

  • CUDA 12.0-12.1 ディレクトリを NCCL バージョン 2.18.5 で更新

  • CUDA12.1 がデフォルトの CUDA バージョンとして更新されました

    • LD_LIBRARY_PATH を /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 に更新し、PATH を /usr/local/cuda-12.1/bin/ に更新しました。

    • 別の CUDA バージョンに変更する場合は、それに応じて LD_LIBRARY_PATH 変数と PATH 変数を定義してください。

を追加

  • カーネルライブパッチが有効になりました。ライブパッチ適用を使用すると、実行中のアプリケーションを再起動または中断することなく、実行中の Linux カーネルにセキュリティ脆弱性と重要なバグパッチを適用できます。カーネル 5.10.192 のライブパッチ適用のサポートは 11/30/23 に終了することに注意してください。

バージョン 60.5

AMI 名: Deep Learning Base AMI (Amazon Linux 2) バージョン 60.5

更新

  • NVIDIA ドライバーが 535.54.03 から 535.104.12 に更新されました

    この最新のドライバーは、535.54.03 ドライバーで見つかった NVML ABI の重大な変更と、P5 インスタンスの CUDA ツールキットに影響を与えたドライバー 535.86.10 で見つかったドライバーのリグレッションを修正します。修正の詳細については、次の NVIDIA リリースノートを参照してください。

    • 4235941 - NVML ABI の重大な変更の修正

    • 4228552 - CUDA Toolkit エラーの修正

  • CUDA 12.2 ディレクトリを NCCL 2.18.5 で更新

  • EFA を 1.24.1 から最新の 1.26.1 に更新

を追加

  • /usr/local/cuda-12.2 に CUDA12.2 を追加usr/local/cuda-12

削除済み

  • CUDA 11.5 および CUDA 11.6 のサポートを削除

バージョン 60.2

AMI 名: Deep Learning Base AMI (Amazon Linux 2) バージョン 60.2

更新

  • aws-ofi-nccl プラグインを v1.7.1 から v1.7.2 に更新

バージョン 60.0

リリース日: 2023-08-11

を追加

  • この AMI は、P5 および以前にサポートされたすべての EC2 インスタンスでマルチノードトレーニング機能をサポートするようになりました。

  • P5 EC2 インスタンスでは、NCCL 2.18 の使用が推奨され、CUDA12.0 および CUDA12.1 に追加されました。

削除済み

  • CUDA11.5 のサポートを削除しました。

バージョン 59.2

リリース日: 2023-08-08

削除済み

  • CUDA-11.3 と CUDA-11.4 を削除

バージョン 59.1

リリース日: 2023-08-03

更新

  • AWS OFI NCCL プラグインを v1.7.1 に更新

  • PyTorch 2.0 が 11.8 をサポートしているため、CUDA11.8 をデフォルトにしました。P5 EC2 インスタンスでは、>=CUDA11.8 を使用することをお勧めします。

    • LD_LIBRARY_PATH を /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 に更新し、PATH を /usr/local/cuda-11.8/bin/ に更新しました。

    • 別の cuda バージョンの場合は、それに応じて LD_LIBRARY_PATH を定義してください。

[固定]

  • 前のリリース日 2023-07-19 で説明した Nvidia Fabric Manager (FM) パッケージのロードの問題を修正しました。

バージョン 58.9

リリース日: 2023-07-19

更新

  • Nvidia ドライバーを 525.85.12 から 535.54.03 に更新

  • EFA インストーラを 1.22.1 から 1.24.1 に更新

を追加

  • 最大 c-state を C1 に設定してプロセッサのアイドル状態を無効にする c-state の変更を追加しました。この変更は、ファイル /etc/default/grub の linux ブート引数に「intel_idle.max_cstate=1 processor.max_cstate=1」を設定することで行われます。

  • AWS EC2 P5 インスタンスのサポート:

    • 単一ノード/インスタンスを使用するワークフローの P5 EC2 インスタンスのサポートを追加しました。EFA (Elastic Fabric Adapter) と AWS OFI NCCL プラグインを使用したマルチノードサポート (マルチノードトレーニングなど) は、今後のリリースで追加される予定です。

    • 最適なパフォーマンスを得るには、CUDA>=11.8 を使用してください。

    • 既知の問題: Nvidia Fabric Manager (FM) パッケージが P5 にロードされるまでに時間がかかるため、お客様は P5 インスタンスのP5がロードされるまで 2~3 分待つ必要があります。FM が開始されているかどうかを確認するには、コマンド sudo systemctl is-active nvidia-fabricmanager を実行してください。ワークフローを開始する前にアクティブが返されます。これは今後のリリースで修正される予定です。

バージョン 58.0

リリース日: 2023-05-19

削除済み

  • このドキュメントの上部セクションに記載されているサポートポリシーに従って、CUDA11.0-11.2 スタックを削除しました。

バージョン 57.3

リリース日: 2023-04-06

を追加

  • Nvidia GDRCopy 2.3 を追加

バージョン 56.8

リリース日: 2023-03-09

更新

  • NVIDIA ドライバーを 515.65.01 から 525.85.12 に更新

を追加

  • /usr/local/cuda-11.8/ に cuda-11.8 を追加

バージョン 56.0

リリース日: 2022-12-06

更新

  • EFA バージョンを 1.17.2 から 1.19.0 に更新

バージョン 55.0

リリース日: 2022-11-04

更新

  • NVIDIA ドライバーを 510.47.03 から 515.65.01 に更新

を追加

  • /usr/local/cuda-11.7/ に cuda-11.7 を追加

バージョン 54.0

リリース日: 2022-09-15

更新

  • EFA バージョンを 1.16.0 から 1.17.2 に更新

バージョン 53.3

リリース日: 2022-05-25

更新

  • aws-efa-installer をバージョン 1.15.2 に更新

  • aws-ofi-nccl をバージョン 1.3.0-aws に更新しました。これには p4de.24xlarge のトポロジが含まれています。

を追加

  • このリリースでは、p4de.24xlarge EC2 インスタンスのサポートが追加されました。

バージョン 53.0

リリース日: 2022-04-28

を追加

  • Amazon CloudWatch エージェントを追加

  • パス /opt/aws/amazon-cloudwatch-agent/etc/ で使用可能な定義済みの json ファイルを使用して、linux ユーザー cwagent を使用して GPU メトリクスを設定する 3 つの systemd サービスを追加しました。

    • dlami-cloudwatch-agent@minimal

      • GPU メトリクスを有効にするコマンド:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • 次のメトリクスが作成されます: utilization_gpuutilization_memory

    • dlami-cloudwatch-agent@partial

      • GPU メトリクスを有効にするコマンド:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • utilization_gpuutilization_memorymemory_total、 というメトリクスが作成されます。 memory_used memory_free

    • dlami-cloudwatch-agent@all

      • GPU メトリクスを有効にするコマンド:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • 使用可能なすべての GPU メトリクスが作成されます。

バージョン 52.0

リリース日: 2022-03-08

更新

  • カーネルバージョンを 5.10 に更新

バージョン 51.0

リリース日: 2022-03-04

更新

  • Nvidia ドライバーを 510.47.03 に更新

バージョン 50.0

リリース日: 2022-02-17

更新

  • AMI に存在する Neuron パッケージでサポートされていない新しいバージョンに更新されるときにロックされた aws-neuron-dkms と tensorflow-model-server-neuron

    • お客様がパッケージをロック解除して最新に更新する場合のコマンド: sudo yum versionlock delete aws-neuron-dkms sudo yum versionlock delete tensorflow-model-server-neuron

バージョン 49.0

リリース日: 2022-01-13

を追加

  • 以下のコンポーネントを含む CUDA11.2 を追加しました。

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

更新

  • シンボリックリンク pip を pip3 に更新

非推奨

  • P2 インスタンスタイプのサポートを廃止

  • python2.7 を廃止し、「python-dev」、「python-pip」、「python-tk」などの関連する python2.7 パッケージを削除しました。

バージョン 48.0

リリース日: 2021-12-27

更新

  • org.apache.ant_1.9.2.v201404171502\lib\ant-apache-log4j.jar は使用されておらず、Log4j ファイルを持つユーザーにリスクがないため、cuda バージョンから削除しました。詳細については、https://nvidia.custhelp.com/app/answers/detail/a_id/5294 を参照してください。

バージョン 47.0

リリース日: 2021-11-24

更新

  • EFA を 1.14.1 に更新

バージョン 46.0

リリース日: 2021-11-12

更新

  • Neuron パッケージを aws-neuron-dkms=1.5.*aws-neuron-runtime-base=1.5.*、aws-neuron-tools=1.6.* から aws-neuron-dkms=2.2.*aws-neuron-runtime-base=1.6.*、aws-neuron-tools=2.0.* に更新しました。

  • Neuron パッケージ aws-neuron-runtime=1.5.* を削除しました。Neuron ではランタイムがデーモンとして実行されなくなり、ランタイムはライブラリとしてフレームワークと統合されるようになりました。

バージョン 45.0

リリース日: 2021-10-21

を追加

  • JSON 形式のセキュリティスキャンレポートは、/opt/aws/dlami/info/ で入手できます。

バージョン 44.0

リリース日: 2021-10-08

  • DLAMI を使用してインスタンスを起動するたびに、aws-dlami-autogenerated-tag-do-not-delete」というタグが追加され、 がインスタンスタイプ、インスタンス ID、DLAMI タイプ、および OS 情報を収集 AWS できるようになります。DLAMI 内で使用されているコマンドに関する情報は収集も保持もされません。DLAMI に関するその他の情報は収集も保持もされません。DLAMI の使用状況の追跡をオプトアウトするには、起動時に Amazon EC2 インスタンスにタグを追加します。タグはキー OPT_OUT_TRACKING を使用し、関連付けられた値を true に設定する必要があります。詳細については、Amazon EC2 リソースにタグを付けるを参照してください。

セキュリティ

  • docker バージョンを docker-20.10.7-3 に更新

バージョン 43.0

リリース日: 2021-08-24

  • 「ノートブック」をバージョン「6.4.1」に更新しました。

バージョン 42.0

リリース日: 2021-07-23

  • Nvidia ドライバーとファブリックマネージャーのバージョンを 450.142.00 に更新しました。

バージョン 41.0

リリース日: 2021-06-24

  • Neuron リリース v1.14.0 に従って Neuron パッケージを更新

バージョン 40.0

リリース日: 2021-06-10

  • awscli バージョンを 1.19.89 に更新

バージョン 39.0

リリース日: 2021-05-27

セキュリティ

  • CUDA-10.0 インストール (/usr/local/cuda-10.0) から脆弱な CUDA-10.0 コンポネネット (Visual Profiler、Nsight EE、JRE) を削除しました。

バージョン 38.0

リリース日: 2021-05-25

  • runc を最新の にアップグレードしました

バージョン 37.0

リリース日: 2021-04-23

  • Nvidia Tesla ドライバーと Fabric Manager のバージョンを 450.119.03 に更新しました。

バージョン 36.1

リリース日: 2021-04-21

[固定]

  • インスタンスの起動速度が低下する問題を修正しました。

バージョン 36.0

リリース日: 2021-03-24

を追加

  • ニューロンモデルの供給をサポートするために tensorflow-model-server-neuron を追加しました。

  • python3 の jupyterlab をバージョン 3.0.8 にアップグレードしました。

[固定]

  • /usr/local/mpi での OpenMPI の古いインストールにより、/opt/amazon/openmpi/bin/mpirun が正しくリンクされませんでした。リンクの問題を修正するために、/usr/local/mpi のインストールを削除し、/opt/amazon/openmpi で OpenMPI のインストールを使用できるようになりました。

  • PATH や LD_LIBRARY_PATH などのシェル環境変数を汚染しているシェル環境の重複した定義と存在しない定義を削除します。その結果、~/.dlami、/etc/profile.d/var.sh が削除され、/etc/profile.d/dlami.sh が追加されました。

セキュリティ

  • CVE-2020-36242 に対応するためにパッケージ暗号化を更新

バージョン 35.0

リリース日: 2021-03-08

を追加

  • TensorRT CUDA 11.0 のインストールを追加

バージョン 34.3

リリース日: 2021-02-25

[固定]

  • バージョン 34.1 を誤って表示した MOTD (その日のメッセージ) の誤字を修正しました。

バージョン 34.2

リリース日: 2021-02-24

セキュリティ

  • CVE-2021-3177 のパッチ適用された python2 と python3

既知の問題

  • MOTD (その日のメッセージ) にバージョン 34.1 が正しく表示されていないタイプミスがあります。この問題に対応するためにバージョン 34.3 をリリースする予定です。

バージョン 34.0

リリース日: 2021-02-09

  • python2 のバージョン 20.3.4 にピン留めされた pip。これは python2、および python3.5 をサポートする最後の pip バージョンです。

バージョン 33.0

リリース日: 2021-01-19

  • CUDA11.0 および CUDA11.1 で cuDNN バージョンを v8.0.5.39 に更新CUDA11しました。 CUDA11

バージョン 32.0

リリース日: 2020-12-01

を追加

  • Deep Learning AMI (Amazon Linux 2)、 Deep Learning AMI (Ubuntu 16.04)、 Deep Learning AMI (Ubuntu 18.04)、 Deep Learning Base AMI (Ubuntu 16.04)、 Deep Learning Base AMI (Ubuntu 18.04)、 Deep Learning Base AMI (Amazon Linux 2) 用の NCCL 2.7.8、cuDNN 8.0.4.30 に CUDA11.1 を追加しました。

バージョン 31.0

リリース日: 2020-11-02

  • EFA インストーラをバージョン 1.10.0 にアップグレードしました。

  • CUDA 11.0 の cuDNN バージョンを v8.0.4.30 にアップグレードしました。

  • AWS Neuron をバージョン 1.1 にアップグレードしました

バージョン 30.0

リリース日: 2020-10-08

  • NVIDIA ドライバーと Fabric Manager のバージョンを 450.80.02 に更新

  • CUDA11.0 の で NCCL を 2.7.8 に更新

[固定]

  • yum マネージド Python パッケージが pipmanaged インストールによって上書きされる問題を修正しました。実行可能な pip、pip3、および pip3.7 は、この修正の一環として /usr/bin から /usr/local/binas に移動されました。

バージョン 29.0

リリース日: 2020-09-11

  • NVIDIA ドライバーをバージョン 450.51.05 から 450.51.06 に更新

  • NVIDIA Fabric Manager バージョン 450.51.06 を追加

  • EFA を 1.9.4 にアップグレードしました

バージョン 28.0

リリース日: 2020-08-19

  • NCCL 2.7.6 および cuDNN 8.0.2.39 を含む CUDA 11.0 スタックを追加

バージョン 27.0

リリース日: 2020-08-07

  • /opt/amazon/efa で EFA をバージョン 1.7.1 から 1.9.3 にアップグレードしました

  • Open MPI を「/usr/local/mpi」のバージョン 4.0.3 から 4.0.4 にアップグレードしました。Open MPI at ‘/opt/amazon/openmpi/bin/mpirun’ is still at version 4.0.3

  • NVIDIA ドライバーを 440.33.01 から 450.51.05 に更新

  • CUDA10.2 で NCCL バージョンを 2.6.4 から 2.7.6 にアップグレードしました

バージョン 26.0

リリース日: 2020-08-03

  • AWS OFI NCCL を最新の にアップグレードしました。詳細については、こちらを参照してください。

  • Cuda 8.0/9.0/9.2 が AMI から削除されました

[固定]

  • 共有オブジェクトファイル libopencv_dnn.so.4.2 を開くことができないエラーを修正しました。

バージョン 25.0

リリース日: 2020-07-19

  • NCCL 2.6.4 をサポートするために EFA バージョンを 1.7.1 に更新

  • CUDA 10.2 の NCCL バージョンが 2.6.4 に更新されました

  • awscli バージョンが 1.16.76 から 1.18.80 に更新されました

  • boto3 バージョンが 1.9.72 から 1.14.3 に更新されました

バージョン 24.1

リリース日: 2020-06-14

  • Docker バージョンが 19.03.6 に更新されました

バージョン 24.0

リリース日: 2020-05-20

  • Docker バージョンが 19.03.6 に更新されました

バージョン 23.0

リリース日: 2020-04-29

  • Python パッケージバージョンのアップグレード

バージョン 22.0

リリース日: 2020-03-04

  • CUDA 10.2 スタックを追加

  • cuDNN および NCCL バージョンの CUDA 10.0 および 10.1 を更新