AMI 名形式サポートされる EC2 インスタンス AMI のコンテンツ注意リリース日: 2025-06-03

AWS Deep Learning OSS AMI GPU PyTorch 2.7 (Ubuntu 22.04)

開始方法については、「」を参照してくださいDLAMI の使用開始。

AMI 名形式

Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.7 (Ubuntu 22.04) ${YYYY-MM-DD}

サポートされる EC2 インスタンス

DLAMI の重要な変更点を参照してください。
G4dn, G5, G5, Gr6, P4, P4de, P5, P5e, P5en, P6-B200

AMI には以下が含まれます。

サポートされている AWS サービス: Amazon EC2
オペレーティングシステム: Ubuntu 22.04
コンピューティングアーキテクチャ: x86
Linux カーネル: 6.8
NVIDIA ドライバー: 570.133.20
NVIDIA CUDA 12.8 スタック：
- CUDA、NCCL、および cuDDN インストールディレクトリ： /usr/local/cuda-12.8/
- NCCL テストの場所：
  - all_reduce、all_gather、および reduce_scatter:
    /usr/local/cuda-12.8/efa/test-cuda-12.8/
  - NCCL テストを実行するために、LD_LIBRARY_PATH はすでに必要なパスで更新されています。
    
    一般的な PATHsはすでに LD_LIBRARY_PATH に追加されています。
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
    LD_LIBRARY_PAT が CUDA バージョンパスで更新されました。
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
- コンパイルされた NCCL バージョン：
  - 12.8 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.26.2+CUDA12.8
- デフォルトの CUDA: 12.8
  - PATH /usr/local/cuda が CUDA 12.8 を指す
  - 以下の env vars を更新しました。
    
    LD_LIBRARY_PATH に /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib を含める
    /usr/local/cuda/bin/:/usr/local/cuda/include/ を持つ PATH
EFA インストーラ： 1.40.0
Nvidia GDRCopy: 2.5
Nvidia Transformer エンジン： 1.11.0
AWS OFI NCCL: 1.14.2-aws
- インストールパス： /opt/amazon/ofi-nccl/。パス /opt/amazon/ofi-nccl/lib が LD_LIBRARY_PATH に追加されました
/usr/local/bin/aws の AWS CLI v2
EBS ボリュームタイプ: gp3
Nvidia コンテナツールキット: 1.17.7
- バージョンコマンド: nvidia-container-cli -V
Docker: 28.2.2
Python: /usr/bin/python3.12

SSM パラメータを使用して AMI-ID をクエリする (リージョンの例は us-east-1):


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-ubuntu-22.04/latest/ami-id \
    --query "Parameter.Value" \
    --output text

AWSCLI で AMI-ID をクエリする (リージョンの例は us-east-1):


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Ubuntu 22.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

注意

フラッシュアテンション

フラッシュアテンションには、PyTorch 2.7 の公式リリースはまだありません。このため、この AMI から一時的に削除されます。PyTorch 2.7 の公式リリースが作成されると、この AMI にそれを含めます。
フラッシュアテンションがない場合、トランスフォーマーエンジンはデフォルトで cuDNN フュージョンアテンションを使用します。P6-B200 インスタンスなど、フュージョンアテンションと Blackwell GPUs には現在既知の問題があります。
- GPUs の場合、スケーリングされたドット積アテンションを持つ FP8 データ型にはデッドロックが含まれており、問題サイズが大きい場合や GPU が複数のカーネルを同時に実行している場合など、状況によってはカーネルがハングします。修正は今後のリリースで予定されています。」〔cuDNN 9.10.0 リリースノート〕
- FP8 データおよびスケーリングされたドット製品注意で P6-B200 インスタンスを実行しようとしているユーザーの場合は、フラッシュ注意を手動でインストールすることを検討してください。

P6-B200 インスタンス

P6-B200 インスタンスには、CUDA バージョン 12.8 以降と NVIDIA ドライバー 570 以降のドライバーが必要です。
P6-B200 には 8 つのネットワークインターフェイスカードが含まれており、次の AWS CLI コマンドを使用して起動できます。


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

P5/P5e インスタンス

DeviceIndex は各 NetworkCard に固有であり、NetworkCard あたりの ENIs の制限より小さい負以外の整数である必要があります。P5 では、NetworkCard あたりの ENIs の数は 2 です。つまり、DeviceIndex の有効な値は 0 または 1 のみです。以下は、awscli を使用した EC2 P5 インスタンス起動コマンドの例です。数値 0～31 の NetworkCardIndex と、最初のインターフェイスでは 0、残りの 31 インターフェイスでは DeviceIndex を 0 として示しています。


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

カーネル

カーネルバージョンはコマンドを使用して固定されます。


echo linux-aws hold | sudo dkpg -set-selections
echo linux-headers-aws hold | sudo dpkg -set-selections
echo linux-image-aws hold | sudo dpkg -set-selections

インストールされたドライバーとパッケージバージョンとの互換性を確保するために、カーネルバージョンを更新しないことをお勧めします (セキュリティパッチによる場合を除く）。ユーザーが引き続き更新する場合は、次のコマンドを実行してカーネルバージョンのピン留めを解除できます。
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
apt-get upgrade -y
```
DLAMI の新しいバージョンごとに、利用可能な最新の互換性のあるカーネルが使用されます。

Anaconda チャネルの PyTorch 廃止

PyTorch 2.6 以降、PyTorch は Conda のサポートを廃止しました (公式発表を参照）。その結果、PyTorch 2.6 以降は Python 仮想環境の使用に移行します。PyTorch venv をアクティブ化するには、ソース /opt/pytorch/bin/activate を使用してください。

リリース日: 2025-06-03

AMI 名: Deep Learning OSS Nvidia ドライバー AMI GPU PyTorch 2.7 (Ubuntu 22.04) 20250602

を追加

Deep Learning AMI GPU PyTorch 2.7 (Ubuntu 22.04) シリーズの初期リリース。NVIDIA Driver R570、CUDA=12.8、cuDNN=9.10、PyTorch NCCL=2.26.5、および EFA=1.40.0 で補完された Python 仮想環境 pytorch (ソース /opt/pytorch/bin/activate) を含める。

既知の問題

GPUs の場合、スケーリングされたドット積アテンションを持つ FP8 データ型にはデッドロックが含まれており、問題サイズが大きい場合や GPU が複数のカーネルを同時に実行している場合など、状況によってはカーネルがハングします。修正は今後のリリースで予定されています。」〔cuDNN 9.10.0 リリースノート〕
- FP8 データおよびスケーリングされたドット製品注意で P6-B200 インスタンスを実行しようとしているユーザーの場合は、フラッシュ注意を手動でインストールすることを検討してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

GPU PyTorch 2.7 (Amazon Linux 2023)

GPU PyTorch 2.6 (Amazon Linux 2023)