As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI GPU PyTorch 2.6 de aprendizado profundo (Ubuntu 22.04)
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Driver OSS Nvidia de aprendizado profundo AMI PyTorch GPU 2.6. $ {PATCH-VERSION} (Ubuntu 22.04) $ {YYYY-MM-DD}
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI.
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Ubuntu 22.04
Arquitetura de computação: x86
Python:/opt/pytorch/bin/python
Controlador NVIDIA:
Controlador OSS Nvidia: 570.86.15
Pilha NVIDIA CUDA12 4.1:
Caminho de instalação de CUDA, NCCL e cuDDN:/-12.6/ usr/local/cuda
-
CUDA padrão: 12,6
CAMINHO/usr/local/cuda points to /usr/local/cuda-12,6/
-
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda/bin/:/usr/local/cuda/include/
Versão NCCL do sistema compilado presente em/usr/local/cuda/: 2.24.3
PyTorch Versão NCCL compilada do ambiente PyTorch conda: 2.21.5
Local dos testes NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para executar testes NCCL, o LD_LIBRARY_PATH já está atualizado com os caminhos necessários.
PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
LD_LIBRARY_PATH é atualizado com caminhos de versão CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Instalador EFA: 1.38.0
Nvidia GDRCopy: 2.4.1
Motor Nvidia Transformer: v1.11.0
AWS OFI NCCL: 1.13.2-aws
O caminho de instalação:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libé adicionado ao LD_LIBRARY_PATH.
Nota: o PyTorch pacote também vem com o plug-in AWS OFI NCCL vinculado dinamicamente como um pacote conda e PyTorch usará esse aws-ofi-nccl-dlc pacote em vez do sistema OFI NCCL. AWS
AWS CLI v2 como aws2 e AWS CLI v1 como aws
Tipo de volume do EBS: gp3
Versão Python: 3.11
Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
PyTorch Depreciação do Anaconda Channel
A partir do PyTorch 2.6, o Pytorch descontinuou o suporte para o Conda (veja o anúncio oficial).
Instâncias P5/P5e:
DeviceIndex é exclusivo para cada um NetworkCard e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1. Abaixo está o exemplo do comando de inicialização da instância EC2 P5 usando awscli que aparece NetworkCardIndex do número 0-31 e DeviceIndex como 0 para a primeira interface e DeviceIndex como 1 para as demais 31 interfaces.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
A versão do kernel é fixada usando o comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-02-21
Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220
Adicionado
Lançamento inicial da série Deep Learning AMI GPU PyTorch 2.6 (Ubuntu 22.04). Incluindo um ambiente virtual Python pytorch (fonte/opt/pytorch/bin/activate), complementado com o driver NVIDIA R570, CUDA=12,6, cuDNN=9,7, NCCL=2,21,5 e EFA=1,38,0. PyTorch
A partir do PyTorch 2.6, o Pytorch descontinuou o suporte para o Conda (veja o anúncio oficial).
Como resultado, o Pytorch 2.6 e versões posteriores passarão a usar ambientes virtuais Python. Para ativar o pytorch venv, ative usando a fonte/opt/pytorch/bin/activate