Formato de nome da AMI EC2 Instâncias suportadas Conteúdo da AMI Avisos Data de lançamento: 2025-05-22

AWS GPU PyTorch 2.7 OSS AMI de aprendizado profundo (Amazon Linux 2023)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

Driver OSS Nvidia de aprendizado profundo AMI GPU 2.7 PyTorch (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

Consulte Alterações importantes no DLAMI
G4dn, G5, G5, G6, P4, P4de, P5, P5e, P5en, P6-B200

A AMI inclui o seguinte:

AWS Serviço suportado: Amazon EC2
Sistema operacional: Amazon Linux 2023
Arquitetura de computação: x86
Kernel Linux: 6.1
Driver NVIDIA: 570.133.20
Pilha NVIDIA CUDA 12.8:
- Diretórios de instalação CUDA, NCCL e cuDDN:/-12.8/ usr/local/cuda
- Local dos testes NCCL:
  - all_reduce, all_gather e reduce_scatter:
    /usr/local/cuda-12.8/efa/test-cuda-12.8/
  - Para executar testes NCCL, o LD_LIBRARY_PATH já está atualizado com os caminhos necessários.
    
    PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
    O LD_LIBRARY_PAT é atualizado com os caminhos da versão CUDA:
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
- Versão compilada da NCCL:
  - Para o diretório CUDA de 12.8, compilou a versão NCCL 2.26.2+ .8 CUDA12
- CUDA padrão: 12,8
  - PATH/usr/local/cudaaponta para CUDA 12.8
  - Variáveis de ambiente atualizadas abaixo:
    
    LD_LIBRARY_PATH para ter/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
    PATH para ter/usr/local/cuda/bin/:/usr/local/cuda/include/
Instalador EFA: 1.40.0
Nvidia GDRCopy: 2,5
AWS OFI NCCL: 1.14.2-aws
- Caminho de instalação:/opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/libé adicionado ao LD_LIBRARY_PATH
AWS CLI v2 em/usr/local/bin/aws
Tipo de volume do EBS: gp3
Kit de ferramentas de contêiner Nvidia: 1.17.7
- Comando de versão: nvidia-container-cli -V
Docker: 25.0.8
Python:/3.12 usr/bin/python

Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \
    --query "Parameter.Value" \
    --output text

Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Avisos

Instâncias P6-B200

As instâncias P6-B200 exigem CUDA versão 12.8 ou superior e driver NVIDIA 570 ou drivers mais recentes.
O P6-B200 contém 8 placas de interface de rede e pode ser iniciado usando o seguinte comando CLI AWS :


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instâncias P5/P5e

DeviceIndex é exclusivo para cada um NetworkCard e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1. Abaixo está um exemplo do comando de inicialização da instância EC2 P5 usando awscli exibido NetworkCardIndex para os números de 0 a 31 e DeviceIndex como 0 para a primeira interface e 1 para as 31 interfaces restantes.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

A versão do kernel é fixada usando o comando:
```
sudo dnf versionlock kernel*
```
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

PyTorch Depreciação do Anaconda Channel

A partir da PyTorch versão 2.6, PyTorch o suporte para o Conda foi descontinuado (veja o anúncio oficial). Como resultado, a versão PyTorch 2.6 e versões posteriores passarão a usar ambientes virtuais Python. Para ativar o PyTorch venv, use a fonte/opt/pytorch/bin/activate

Data de lançamento: 2025-05-22

Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU 2.7 PyTorch (Amazon Linux 2023) 20250520

Adicionado

Lançamento inicial da série Deep Learning AMI GPU PyTorch 2.7 (Amazon Linux 2023). Incluindo um ambiente virtual Python pytorch (source/opt/pytorch/bin/activate) complementado com NVIDIA Driver R570, CUDA=12,8, cuDNN=9.10, NCCL=2.26.2 e EFA=1.40.0. PyTorch

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

X86

GPU PyTorch 2.7 (Ubuntu 22.04)