Formato de nome da AMI EC2 Instâncias suportadas Conteúdo da AMI Avisos Data de lançamento: 2025-06-03

AWS GPU OSS AMI PyTorch 2.7 de aprendizado profundo (Ubuntu 22.04)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

Driver OSS Nvidia de aprendizado profundo AMI GPU PyTorch 2.7 (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

Consulte Alterações importantes no DLAMI
G4dn, G5, G5, G6, P4, P4de, P5, P5e, P5en, P6-B200

A AMI inclui o seguinte:

AWS Serviço suportado: Amazon EC2
Sistema operacional: Ubuntu 22.04
Arquitetura de computação: x86
Kernel Linux: 6.8
Driver NVIDIA: 570.133.20
Pilha NVIDIA CUDA 12.8:
- Diretórios de instalação CUDA, NCCL e cuDDN:/-12.8/ usr/local/cuda
- Local dos testes NCCL:
  - all_reduce, all_gather e reduce_scatter:
    /usr/local/cuda-12.8/efa/test-cuda-12.8/
  - Para executar testes NCCL, o LD_LIBRARY_PATH já está atualizado com os caminhos necessários.
    
    PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
    O LD_LIBRARY_PAT é atualizado com os caminhos da versão CUDA:
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
- Versão compilada da NCCL:
  - Para o diretório CUDA de 12.8, compilou a versão NCCL 2.26.2+ .8 CUDA12
- CUDA padrão: 12,8
  - PATH/usr/local/cudaaponta para CUDA 12.8
  - Variáveis de ambiente atualizadas abaixo:
    
    LD_LIBRARY_PATH para ter/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
    PATH para ter/usr/local/cuda/bin/:/usr/local/cuda/include/
Instalador EFA: 1.40.0
Nvidia GDRCopy: 2,5
Motor Nvidia Transformer: 1.11.0
AWS OFI NCCL: 1.14.2-aws
- Caminho de instalação:/opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/libé adicionado ao LD_LIBRARY_PATH
AWS CLI v2 em/usr/local/bin/aws
Tipo de volume do EBS: gp3
Kit de ferramentas de contêiner Nvidia: 1.17.7
- Comando de versão: nvidia-container-cli -V
Docker: 28.2.2
Python:/3.12 usr/bin/python

Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-ubuntu-22.04/latest/ami-id \
    --query "Parameter.Value" \
    --output text

Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Ubuntu 22.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Avisos

Atenção instantânea

O Flash attention ainda não tem um lançamento oficial para PyTorch 2.7. Por esse motivo, ele é removido temporariamente dessa AMI. Depois que um lançamento oficial for feito para o PyTorch 2.7, nós o incluiremos nessa AMI.
Sem a atenção do flash, o motor do transformador usa como padrão a atenção fundida cuDNN. Atualmente, existem problemas conhecidos com a atenção combinada e o Blackwell GPUs, como instâncias P6-B200.
- “Com o recurso computacional sm10.0 (arquitetura Blackwell) GPUs, o FP8 tipo de dados com atenção escalonada ao produto contém um impasse que faz com que o kernel pare em algumas circunstâncias, como quando o tamanho do problema é grande ou a GPU está executando vários kernels simultaneamente. Uma correção está planejada para uma versão futura.” [Notas de lançamento do cuDNN 9.10.0]
- Para usuários que desejam executar instâncias P6-B200 com FP8 dados e atenção escalonada ao produto, considere instalar o flash attention manualmente.

Instâncias P6-B200

As instâncias P6-B200 exigem CUDA versão 12.8 ou superior e driver NVIDIA 570 ou drivers mais recentes.
O P6-B200 contém 8 placas de interface de rede e pode ser iniciado usando o seguinte comando CLI AWS :


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instâncias P5/P5e

DeviceIndex é exclusivo para cada um NetworkCard e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1. Abaixo está um exemplo do comando de inicialização da instância EC2 P5 usando awscli exibido NetworkCardIndex para os números de 0 a 31 e DeviceIndex como 0 para a primeira interface e 1 para as 31 interfaces restantes.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

A versão do kernel é fixada usando o comando:


echo linux-aws hold | sudo dkpg -set-selections
echo linux-headers-aws hold | sudo dpkg -set-selections
echo linux-image-aws hold | sudo dpkg -set-selections

Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
apt-get upgrade -y
```
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

PyTorch Depreciação do Anaconda Channel

A partir da PyTorch versão 2.6, PyTorch o suporte para o Conda foi descontinuado (veja o anúncio oficial). Como resultado, a versão PyTorch 2.6 e versões posteriores passarão a usar ambientes virtuais Python. Para ativar o PyTorch venv, use a fonte/opt/pytorch/bin/activate

Data de lançamento: 2025-06-03

Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Ubuntu 22.04) 20250602

Adicionado

Lançamento inicial da série Deep Learning AMI GPU PyTorch 2.7 (Ubuntu 22.04). Incluindo um ambiente virtual Python pytorch (source/opt/pytorch/bin/activate) complementado com NVIDIA Driver R570, CUDA=12,8, cuDNN=9.10, NCCL=2.26.5 e EFA=1.40.0. PyTorch

Problemas conhecidos

“Com o recurso computacional sm10.0 (arquitetura Blackwell) GPUs, o FP8 tipo de dados com atenção escalonada ao produto contém um impasse que faz com que o kernel pare em algumas circunstâncias, como quando o tamanho do problema é grande ou a GPU está executando vários kernels simultaneamente. Uma correção está planejada para uma versão futura.” [Notas de lançamento do cuDNN 9.10.0]
- Para usuários que desejam executar instâncias P6-B200 com FP8 dados e atenção escalonada ao produto, considere instalar o flash attention manualmente.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

GPU PyTorch 2.7 (Amazon Linux 2023)

GPU PyTorch 2.6 (Amazon Linux 2023)