AWS Deep Learning AMI (Amazon Linux 2) - AWS Deep Learning AMIs

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Deep Learning AMI (Amazon Linux 2)

ヒント

PyTorch や TensorFlow などの単一のフレームワークを使用している場合は、ここで説明する単一のフレームワーク DLAMIsを使用することをお勧めします。

開始方法については、「」を参照してくださいDLAMI の使用開始

AMI 名形式

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン ${XX.X}

  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン ${XX.X}

サポートされる EC2 インスタンス

  • DLAMI の重要な変更点を参照してください。

  • OSS Nvidia ドライバーによる深層学習は、G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5 をサポート

  • 独自の Nvidia ドライバーを使用した Deep Learning が G3 (G3.16x はサポートされていません)、P3, P3dn をサポート

AMI には以下が含まれます。

  • サポートされている AWS サービス: Amazon EC2

  • オペレーティングシステム: Amazon Linux 2

  • コンピューティングアーキテクチャ: x86

  • Conda 環境フレームワークと Python バージョン:

    • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16、Python 3.10

      • pytorch_p310: PyTorch 2.2、Python 3.10

    • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310: TensorFlow 2.16、Python 3.10

      • pytorch_p310: PyTorch 2.2、Python 3.10

  • NVIDIA ドライバー

    • OSS Nvidia ドライバー: 550.163.01

    • 独自の Nvidia ドライバー: 550.163.01

  • NVIDIA CUDA12.1-12.4 スタック

    • CUDA、NCCL、および cuDDN インストールパス: /usr/local/cuda-xx.x/

    • デフォルトの CUDA: 12.1

      • PATH /usr/local/cuda が CUDA12.1 を指す

      • 以下の env vars を更新しました。

        • LD_LIBRARY_PATH に /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib を付ける

        • /usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/ を持つ PATH

      • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

    • CUDA 12.1-12.4 のコンパイル済み NCCL バージョン: 2.22.3

    • NCCL テストの場所:

      • all_reduce、all_gather、Reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • NCCL テストを実行するには、LD_LIBRARY_PATH に以下の更新を渡す必要があります。

        • 一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。

  • EFA インストーラ: 1.38.0

  • GDRCopy: 2.4

  • AWS OFI NCCL: 1.13.2

    • システムの場所: /usr/local/cuda-xx.x/efa

    • これは、/usr/local/cuda-xx.x/efa/test-cuda-xx.x/ にある NCCL テストを実行するために追加されます。

    • また、PyTorch パッケージには動的にリンクされた AWS OFI NCCL プラグインが conda パッケージ aws-ofi-nccl-dlc パッケージとしても付属しており、PyTorch はシステム AWS OFI NCCL の代わりにそのパッケージを使用します。

  • NCCL テストの場所: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/

  • AWS CLI /usr/local/bin/aws2 の v2 と /usr/local/bin/aws の AWS CLI v1

  • EBS ボリュームタイプ: gp3

  • SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 独自の Nvidia ドライバー:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):

    • OSS Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 独自の Nvidia ドライバー:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

注意

EFA 1.37 から 1.38 への更新 (2025-02-05 にリリース)

  • EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

Neuron Conda 環境の削除

  • 2024 年 7 月 18 日以降にリリースされた Deep Learning 独自の Nvidia ドライバー AMIs は、PyTorch および TensorFlow 用のニューロン conda 環境なしで出荷されます。ニューロン環境を利用するには、DLAMIs リリースノートの Neuron DLAMI を使用してください。

監査パッケージの削除

  • 2024 年 3 月 26 日 (2024-03-26) から 2024 年 4 月 12 日 (2024-04-12) の間にリリースされた DLAMI は、監査パッケージなしで出荷されました。ログ記録とモニタリングのニーズに合わせてこの特定のパッケージが必要な場合は、監査パッケージがインストールされているワークフローを使用するために、ワークフローを最新の DLAMI に移行してください。

Horovod

  • Horovod は、DLAMI の現在の pytorch_p310 および tensorflow2_p310 conda 環境から削除されます。お客様は、horovod ガイドラインに従って horovod ライブラリをインストールし、分散トレーニングジョブの DLAMIs にインストールできます。

リリース日: 2025-04-22

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 81.2

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 81.2

更新

  • 2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.144.03 から 550.163.01 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630

リリース日: 2025-02-17

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.6

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.4

更新

削除済み

リリース日: 2025-02-05

AMI 名
  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.2

  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.4

更新

  • EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました

    • EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。

リリース日: 2025-01-15

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.3

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.1

更新

  • 2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5614

リリース日: 2024-12-09

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 80.1

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.9

更新

  • Nvidia Container Toolkit をバージョン 1.17.0 から 1.17.3 にアップグレードしました

リリース日: 2024-11-11

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.9

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.7

更新

  • Nvidia Container Toolkit をバージョン 1.16.2 から 1.17.0 にアップグレードし、セキュリティ脆弱性 CVE-2024-0134 に対応しました。

リリース日: 2024-10-22

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.6

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.6

更新

  • 2024 年 550.90.070 月の NVIDIA GPU ディスプレイセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン から 550.127.05 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5586

リリース日: 2024-10-03

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.3

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 79.3

更新

  • Nvidia Container Toolkit をバージョン 1.16.1 から 1.16.2 にアップグレードし、セキュリティ脆弱性 CVE-2024-0133 に対応しました。

リリース日: 2024-07-18

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.6

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.7

更新

  • Deep Learning 独自の Nvidia ドライバー AMI から aws_neuron_pytorch_p38 および aws_neuron_tensorflow_p38 conda 環境を削除しました。

  • Deep Learning 独自の Nvidia ドライバー AMI から Inf1 インスタンスファミリーのサポートを削除しました。

リリース日: 2024-06-06

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.5

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.5

更新

  • Nvidia ドライバーのバージョンを 535.183.01 から 535.161.08 に更新

リリース日: 2024-05-17

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.1

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.1

更新

リリース日: 2024-05-07

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.0

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 78.0

更新

  • TensorFlow バージョンが tensorflow2_p310 環境で 2.15 から 2.16 に更新されました。

  • EFA バージョンをバージョン 1.30 からバージョン 1.32 に更新

  • AWS OFI NCCL プラグインをバージョン 1.7.4 からバージョン 1.9.1 に更新

  • Nvidia コンテナツールキットをバージョン 1.13.5 からバージョン 1.15.0 に更新

を追加

  • CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 を含む CUDA12.3 スタックを追加

削除済み

  • /usr/local/cuda-CUDA11.7 および /usr/local/cuda-12.0 に存在する CUDA1211.7、CUDA12.0 スタックを削除usr/local/cuda-11usr/local/cuda-12

  • nvidia-container-runtime パッケージと nvidia-docker2 パッケージを含まない 1.13.5 から 1.15.0 への Nvidia コンテナツールキットの更新の一環として、nvidia-docker2 パッケージとそのコマンド nvidia-docker を削除しました。

リリース日: 2024-04-04

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 77.0

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 77.0

更新

  • pytorch_p310 環境で PyTorch バージョンが 2.1 から 2.2 に更新されました。

  • OSS Nvidia ドライバー DLAMIs、G6 および Gr6 EC2 インスタンスのサポートが追加されました。詳細については、EC2 インスタンスの選択ページを参照してください。

リリース日: 2024-03-29

AMI 名
  • Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) バージョン 76.8

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 76.9

更新

  • 独自のドライバー DLAMI と OSS Nvidia ドライバー DLAMI の両方で、Nvidia ドライバーを 535.104.12 から 535.161.08 に更新しました。 DLAMIs

  • DLAMI ごとにサポートされている新しいインスタンスは次のとおりです。

    • 独自の Nvidia ドライバーを使用した Deep Learning で G3 (G3.16x はサポートされていません)、P3, P3dn, Inf1をサポート

    • OSS Nvidia ドライバーを使用した Deep Learning は、G4dn, G5, P4d, P4de をサポートしています。

削除済み

  • 独自の Nvidia ドライバー DLAMI から G4dn, G5, G3.16x EC2 インスタンスのサポートを削除しました。

バージョン 76.8

リリース日: 2024-03-20

AMI 名
  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 76.8

を追加

  • AMI に awscliv2 を /usr/local/bin/aws2 として追加し、独自の Nvidia ドライバー AMI に awscliv1 を /usr/local/bin/aws として追加しました。

バージョン 76.7

リリース日: 2024-03-20

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 76.7

を追加

  • AMI に awscliv2 を /usr/local/bin/aws2 として追加し、OSS Nvidia ドライバー AMI に awscliv1 を /usr/local/bin/aws として追加しました。

  • 現在のサポートに基づいて、G4dn および G5 をサポートする OSS Nvidia ドライバー DLAMI が次のように更新されました。

    • Deep Learning Base 独自の Nvidia ドライバー AMI (Amazon Linux 2) は、P3, P3dn, G3, G5, G4dn をサポートしています。

    • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) は、G4dn, G5, P4, P5 をサポートしています。

  • OSS Nvidia ドライバー DLAMIsは、G4dn, G5, P4, P5 に使用することをお勧めします。

バージョン 76.3

リリース日: 2024-02-14

更新

  • TensorFlow を 2.13.0 から 2.15.0 に更新

  • EFA を 1.29.0 から 1.30.0 に更新

  • AWS OFI-NCCL を 1.7.3-aws から 1.7.4-aws に更新

  • Deep Learning 独自の Nvidia ドライバー AMI で Nvidia ドライバーを 535.104.12 に更新

  • Deep Learning OSS Nvidia Driver AMI で Nvidia Driver を 535.154.05 に更新

バージョン 76.2

リリース日: 2024-02-02

AMI 名
  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 76.2

  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 76.4

セキュリティ

  • CVE-2024-21626 のパッチを使用するように runc パッケージバージョンを更新しました。

バージョン 76.1

リリース日: 2023-12-27

更新

  • PyTorch を 2.0.1 から 2.1.0 に更新

バージョン 75.1

リリース日: 2023-11-17

DLAMI の重要な変更点を参照してください。

AMI 名
  • Deep Learning OSS Nvidia ドライバー AMI (Amazon Linux 2) バージョン 75.1

  • Deep Learning 独自の Nvidia ドライバー AMI (Amazon Linux 2) バージョン 75.1

を追加

  • AWS Deep Learning AMI (DLAMI) は 2 つのグループに分割されます。

    • Nvidia 独自ドライバーを使用する DLAMI (P3, P3dn, G3, G5, G4dn をサポート)。

    • Nvidia OSS ドライバーを使用して EFA を有効にする DLAMI (P4, P5 をサポート)。

  • DLAMI 分割の詳細については、公開発表を参照してください。

  • AWS 上記の の cli クエリは、AWSCLI を使用した箇条書きの Query AMI-ID のリリースノートにあります (リージョンの例は us-east-1)。 AWSCLI

更新

  • EFA を 1.26.1 から 1.29.0 に更新

  • GDRCopy が 2.3 から 2.4 に更新されました

バージョン 74.4

リリース日: 2023-10-27

更新

  • AWS OFI NCCL プラグインがバージョン 1.7.2 からバージョン 1.7.3 に更新されました

  • CUDA 12.0-12.1 ディレクトリを NCCL バージョン 2.18.5 で更新

  • CUDA12.1 がデフォルトの CUDA バージョンとして更新されました

    • LD_LIBRARY_PATH を /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 に更新し、PATH を /usr/local/cuda-12.1/bin/ に更新しました。

    • 別の CUDA バージョンに変更する場合は、それに応じて LD_LIBRARY_PATH 変数と PATH 変数を定義してください。

  • すべての conda 環境で SNYK-PYTHON-PILLOW-5918878 を修正するために、Pillow をバージョン 9.4.0 から 10.1.0 に更新

  • opencv-python を 4.8.0.74 から 4.8.1.78 に更新し、すべての conda 環境で SNYK-PYTHON-OPENCVPYTHON-5926695 を修正しました

を追加

  • カーネルライブパッチが有効になりました。ライブパッチ適用を使用すると、実行中のアプリケーションを再起動または中断することなく、実行中の Linux カーネルにセキュリティ脆弱性と重要なバグパッチを適用できます。

バージョン 74.0

リリース日: 2023-07-19

更新

  • TensorFlow を 2.12 から 2.13 に更新

    • Horovod は、このリリースで conda 環境から削除されました。horovod のインストールの詳細については、「注意」を参照してください。

バージョン 73.1

リリース日: 2023-06-12

更新

  • PyTorch を 2.0.0 から 2.0.1 に更新