翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Deep Learning Base GPU AMI (Ubuntu 22.04)
開始方法については、「」を参照してくださいDLAMI の使用開始。
AMI 名形式
Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) ${YYYY-MM-DD}
サポートされる EC2 インスタンス
DLAMI の重要な変更点を参照してください。
OSS Nvidia ドライバーを使用した Deep Learning G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200 をサポートしています。
AMI には以下が含まれます。
サポートされている AWS サービス: Amazon EC2
オペレーティングシステム: Ubuntu 22.04
コンピューティングアーキテクチャ: x86
利用可能な最新バージョンは、次のパッケージにインストールされます。
Linux カーネル: 6.8
FSx Lustre
Docker
AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1
NVIDIA DCGM
Nvidia コンテナツールキット:
バージョンコマンド: nvidia-container-cli -V
Nvidia-docker2:
Version コマンド: nvidia-docker バージョン
NVIDIA ドライバー: 570.133.20
NVIDIA CUDA12.4-12.6 および 12.8 スタック:
CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/
例: /usr/local/cuda-12.8/ 、/usr/local/cuda-12.8/
コンパイル済み NCCL バージョン: 2.26.5
デフォルトの CUDA: 12.8
PATH /usr/local/cuda が CUDA 12.8 を指す
以下の env vars を更新しました。
LD_LIBRARY_PATH に /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib64 を含める
/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ を持つ PATH
別の CUDA バージョンの場合は、それに応じて LD_LIBRARY_PATH を更新してください。
EFA インストーラ: 1.40.0
Nvidia GDRCopy: 2.5
AWS OFI NCCL: 1.14.2-aws
インストールパス: /opt/amazon/ofi-nccl/ 。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました。
AWS CLI /usr/local/bin/aws2 の v2 と /usr/bin/aws の AWS CLI v1
EBS ボリュームタイプ: gp3
Python: /usr/bin/python3.10
NVMe インスタンスストアの場所 (サポートされている EC2 インスタンス): /opt/dlami/nvme
SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):
OSS Nvidia ドライバー:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1)。
OSS Nvidia ドライバー:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
NVIDIA Container Toolkit 1.17.4
Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「If you use a CUDA compatibility layer」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
EFA 1.37 から 1.38 への更新 (2025-01-31 にリリース)
EFA が AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
マルチ ENI サポート
Ubuntu 22.04 は、初期起動時に cloud-init を使用して、複数の NICss でソースルーティングを自動的にセットアップおよび設定します。インスタンスの停止中にワークフローに ENIs のアタッチ/デタッチが含まれている場合は、これらのイベント中に NIC の適切な設定を確保するために、cloud-init ユーザーデータに追加の設定を追加する必要があります。クラウド設定の例を以下に示します。
インスタンスのクラウド設定の設定方法の詳細については、こちらの正規ドキュメントを参照してください - https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automatically-setup-multiple-nics/
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
サポートポリシー
CUDA バージョンなどのこの AMI のこれらの AMIs コンポーネントは、フレームワークのサポートポリシーに基づいて削除および変更したり、深層学習コンテナ
複数のネットワークカードを持つ EC2 インスタンス
EFA をサポートする多くのインスタンスタイプには複数のネットワークカードもあります。
DeviceIndex は各ネットワークカードに固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。
プライマリネットワークインターフェイス (ネットワークカードインデックス 0、デバイスインデックス 0) の場合は、EFA (EFA with ENA) インターフェイスを作成します。EFA のみのネットワークインターフェイスをプライマリネットワークインターフェイスとして使用することはできません。
追加のネットワークインターフェイスごとに、ENA 帯域幅要件や IP アドレススペースなどのユースケースに応じて、次に未使用のネットワークカードインデックス、デバイスインデックス 1、EFA (EFA with ENA) または EFA のみのネットワークインターフェイスを使用します。ユースケースの例については、P5 インスタンスの EFA 設定」を参照してください。
詳細については、https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-acc-inst-types.html「EFA ガイド」を参照してください。
P6-B200 インスタンス
P6-B200 には 8 つのネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en インスタンス
P5en には 16 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5/P5e インスタンス
P5 および P5e インスタンスには 32 個のネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
カーネル
カーネルバージョンは コマンドを使用して固定されます。
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く)。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。
リリース日: 2025-05-16
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250516
を追加
P6-B200 EC2 インスタンスのサポートを追加
更新
EFA インストーラをバージョン 1.39.0 から 1.40.0 にアップグレードしました
AWS OFI NCCL プラグインをバージョン 1.13.0-aws から 1.14.2-aws にアップグレードする
コンパイル済み NCCL バージョンをバージョン 2.22.3 から 2.26.5 に更新
デフォルトの CUDA バージョンをバージョン 12.6 から 12.8 に更新
Nvidia DCGM バージョンを 3.3.9 から 4.4.3 に更新
リリース日: 2025-05-05
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250503
更新
GDRCopy を 2.4.1 から 2.5.1 にアップグレードしました
リリース日: 2025-04-24
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250424
更新
2025 年 4 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 570.124.06 から 570.133.20 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5630
リリース日: 2025-02-17
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250214
更新
NVIDIA Container Toolkit をバージョン 1.17.3 からバージョン 1.17.4 に更新しました
詳細については、「https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
」のリリースノートページを参照してください。 Container Toolkit バージョン 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、「If you use a CUDA compatibility layer」チュートリアルに示すように、LD_LIBRARY_PATH を更新して CUDA 互換ライブラリを含めるようにしてください。
削除済み
2025 年 2 月 18 日の NVIDIA CUDA Toolkit
Security Bulletin にある CVEs に対応するために NVIDIA CUDA ツールキットが提供するユーザースペースライブラリ cuobj と nvdisasm を削除 https://nvidia.custhelp.com/app/answers/detail/a_id/5594
リリース日: 2025-02-07
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250205
を追加
ディレクトリ /usr/local/cuda-12.6 に CUDA ツールキットバージョン 12.6 を追加
削除済み
CUDA バージョン 12.1 および 12.2 がこの DLAMI から削除されました。お客様は、以下のリンクを使用して NVIDIA からこれらのバージョンをインストールできます。
リリース日: 2025-01-31
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250131
更新
EFA バージョンを 1.37.0 から 1.38.0 にアップグレードしました
EFA は AWS OFI NCCL プラグインをバンドルするようになりました。このプラグインは、元の /opt/amazon/ofiaws-ofi-nccl にあります。LD_LIBRARY_PATH 変数を更新する場合は、OFI NCCL の場所を適切に変更してください。
Nvidia Container Toolkit を 1.17.3 から 1.17.4 にアップグレードしました
リリース日: 2025-01-17
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20250117
更新
2025 年 1 月の NVIDIA GPU ディスプレイドライバーのセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン 550.127.05 から 550.144.03 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5614
リリース日: 2024-11-18
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20241115
を追加
Lustre サポート用の Amazon FSx パッケージを追加しました。
[固定]
-
カーネルアドレススペースレイアウト分割 (KASLR) 機能 の欠陥に対処するために Ubuntu カーネルが変更されているため、G4Dn/G5 インスタンスは OSS Nvidia ドライバーで CUDA を適切に初期化できません。この問題を軽減するために、この DLAMI には、G4Dn および G5 インスタンスの独自のドライバーを動的にロードする機能が含まれています。インスタンスが正しく動作するように、このロードには短い初期化期間を設けてください。
このサービスのステータスと状態を確認するには、次のコマンドを使用します。
sudo systemctl is-active dynamic_driver_load.service
active
リリース日: 2024-10-23
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20241023
更新
2024 年 550.90.070 月の NVIDIA GPU ディスプレイセキュリティ情報に記載されている CVEs に対応するために、Nvidia ドライバーをバージョン から 550.127.05 にアップグレードしました https://nvidia.custhelp.com/app/answers/detail/a_id/5586
リリース日: 2024-10-01
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 20.04) 20240930
更新
Nvidia ドライバーと Fabric Manager をバージョン 535.183.01 から 550.90.07 にアップグレード
Nvidia Container Toolkit をバージョン 1.16.1 から 1.16.2 にアップグレードし、セキュリティ脆弱性 CVE-2024-0133
に対応しました。 EFA バージョンを 1.32.0 から 1.34.0 にアップグレードしました
すべての CUDA バージョンで NCCL を最新バージョン 2.22.3 にアップグレードしました
CUDA 12.1、12.2 を 2.18.5+CUDA12.2 からアップグレード
バージョン 2.21.5+CUDA12.4 からアップグレードされた CUDA12.3
を追加
ディレクトリ /usr/local/cuda-12.4 に CUDA ツールキットバージョン 12.4 を追加
P5e EC2 インスタンスのサポートが追加されました。
リリース日: 2024-08-19
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240816
を追加
G6e EC2 インスタンス
のサポートが追加されました。
リリース日: 2024-06-06
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240606
更新
Nvidia ドライバーのバージョンを 535.183.01 から 535.161.08 に更新
リリース日: 2024-05-15
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240513
削除済み
Amazon FSx for Lustre のサポートは、最新の Ubuntu 22.04 カーネルバージョンとの互換性がないため、このリリースで削除されました。FSx for Lustre のサポートは、最新のカーネルバージョンがサポートされると再開されます。FSx for Lustre を必要とするお客様は、引き続き Deep Learning Base GPU AMI (Ubuntu 20.04)
を使用する必要があります。
リリース日: 2024-04-29
AMI 名: Deep Learning Base OSS Nvidia ドライバー GPU AMI (Ubuntu 22.04) 20240429
を追加
Deep Learning Base OSS DLAMI for Ubuntu 22.04 の初回リリース