As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS GPU PyTorch 2.7 OSS AMI de aprendizado profundo (Amazon Linux 2023)
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Driver OSS Nvidia de aprendizado profundo AMI GPU 2.7 PyTorch (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI
G4dn, G5, G5, G6, P4, P4de, P5, P5e, P5en, P6-B200
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Amazon Linux 2023
Arquitetura de computação: x86
Kernel Linux: 6.1
Driver NVIDIA: 570.133.20
Pilha NVIDIA CUDA 12.8:
Diretórios de instalação CUDA, NCCL e cuDDN:/-12.8/ usr/local/cuda
Local dos testes NCCL:
all_reduce, all_gather e reduce_scatter:
/usr/local/cuda-12.8/efa/test-cuda-12.8/
Para executar testes NCCL, o LD_LIBRARY_PATH já está atualizado com os caminhos necessários.
PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
O LD_LIBRARY_PAT é atualizado com os caminhos da versão CUDA:
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
Versão compilada da NCCL:
Para o diretório CUDA de 12.8, compilou a versão NCCL 2.26.2+ .8 CUDA12
CUDA padrão: 12,8
PATH/usr/local/cudaaponta para CUDA 12.8
-
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda/bin/:/usr/local/cuda/include/
Instalador EFA: 1.40.0
Nvidia GDRCopy: 2,5
AWS OFI NCCL: 1.14.2-aws
Caminho de instalação:/opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/libé adicionado ao LD_LIBRARY_PATH
AWS CLI v2 em/usr/local/bin/aws
Tipo de volume do EBS: gp3
Kit de ferramentas de contêiner Nvidia: 1.17.7
Comando de versão: nvidia-container-cli -V
Docker: 25.0.8
Python:/3.12 usr/bin/python
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output textConsulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Avisos
Instâncias P6-B200
As instâncias P6-B200 exigem CUDA versão 12.8 ou superior e driver NVIDIA 570 ou drivers mais recentes.
O P6-B200 contém 8 placas de interface de rede e pode ser iniciado usando o seguinte comando CLI AWS :
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instâncias P5/P5e
DeviceIndex é exclusivo para cada um NetworkCard e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1. Abaixo está um exemplo do comando de inicialização da instância EC2 P5 usando awscli exibido NetworkCardIndex para os números de 0 a 31 e DeviceIndex como 0 para a primeira interface e 1 para as 31 interfaces restantes.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
A versão do kernel é fixada usando o comando:
sudo dnf versionlock kernel*
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
sudo dnf versionlock delete kernel* sudo dnf update -y
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
PyTorch Depreciação do Anaconda Channel
A partir da PyTorch versão 2.6, PyTorch o suporte para o Conda foi descontinuado (veja o anúncio oficial).
Data de lançamento: 2025-05-22
Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU 2.7 PyTorch (Amazon Linux 2023) 20250520
Adicionado
Lançamento inicial da série Deep Learning AMI GPU PyTorch 2.7 (Amazon Linux 2023). Incluindo um ambiente virtual Python pytorch (source/opt/pytorch/bin/activate) complementado com NVIDIA Driver R570, CUDA=12,8, cuDNN=9.10, NCCL=2.26.2 e EFA=1.40.0. PyTorch