As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI de GPU de ARM64 base de aprendizado profundo (Ubuntu 22.04)
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
ARM64 Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}
EC2 Instâncias suportadas
G5g, P6e- GB2 00 (CUDA>=12.8 é suportado em P6e- 00) GB2
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Ubuntu 22.04
Arquitetura de computação: ARM64
A versão mais recente disponível está instalada para os seguintes pacotes:
Kernel Linux: 6. 8
FSx Lustro
Docker
AWS CLI v2 em/usr/bin/aws
NVIDIA DCGM
Kit de ferramentas de contêiner Nvidia:
Comando de versão: nvidia-container-cli -V
NVIDIA-Docker 2:
Comando de versão: versão nvidia-docker
Driver NVIDIA: 570.158.01
Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:
Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Versão compilada da NCCL:
Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3+ .4 CUDA12
Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3+ .5 CUDA12
Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3+ .6 CUDA12
Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5+ .8 CUDA12
CUDA padrão: 12,8
PATH/usr/local/cudaaponta para CUDA 12.8
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH deve ter/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib
PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.42.0
Nvidia GDRCopy: 2.5.1
AWS O plugin OFI NCCL vem com o instalador EFA
Os caminhos/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efasão adicionados ao LD_LIBRARY_PATH.
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
Tipo de volume do EBS: gp3
Python:/3.10 usr/bin/python
Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):
SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output textConsulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
P6-00 instâncias GB2
As instâncias P6e- GB2 00 contêm 17 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"
Avisos
Kit de ferramentas de contêiner NVIDIA 1.17.4
No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Suporte para vários ENI
O Ubuntu 22.04 configura e configura automaticamente o roteamento de origem em vários NICs via cloud-init em sua inicialização inicial. Se seu fluxo de trabalho incluir attaching/detaching suas ENIs enquanto uma instância estiver parada, uma configuração adicional deverá ser adicionada aos dados do usuário cloud-init para garantir a configuração adequada das NICs durante esses eventos. Uma amostra da configuração da nuvem é fornecida abaixo.
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']
Política de suporte
Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo
Kernel
A versão do kernel é fixada usando o comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-07-04
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704
Atualizado
Foi adicionado suporte à EC2 instância P6e- 00. GB2 Observe que CUDA>=12.8 é suportado no P6e- 00 GB2
Adicionar EFA 1.42.0
Driver Nvidia atualizado da versão 570.133.20 para 570.158.01
Pilha CUDA 12.8 atualizada com NCCL 2.27.5
Data de lançamento: 2025-04-24
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424
Atualizado
Pilha CUDA 12.8 atualizada com NCCL 2.26.2
CUDA padrão atualizado de 12,6 para 12,8
CUDA 12.3 removido
Data de lançamento: 2025-03-03
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303
Atualizado
Driver Nvidia de 550.144.03 a 570.86.15
O CUDA padrão foi alterado de CUDA12 0,1 para 6. CUDA12
Adicionado
Diretório CUDA de 12.4 com NCCL versão CUDA12 2.22.3+ .4 compilada e cuDNN 9.7.1.26
Diretório CUDA de 12.5 com NCCL versão CUDA12 2.22.3+ .5 compilada e cuDNN 9.7.1.26
Diretório CUDA de 12.6 com NCCL versão CUDA12 2.24.3+ .6 compilada e cuDNN 9.7.1.26
Diretório CUDA de 12.8 com NCCL compilado versão CUDA12 2.25.1+ .8 e cuDNN 9.7.1.26
Removido
Diretório CUDA de 12.1 e 12.2
Data de lançamento: 2025-02-17
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214
Atualizado
Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4
Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Removido
As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas
NVIDIA CUDA de 18 de fevereiro de 2025
Data de lançamento: 2025-01-17
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117
Atualizado
Data de lançamento: 2024-10-23
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023
Atualizado
Data de lançamento: 2024-06-06
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606
Atualizado
Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-15
Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514
Adicionado
Lançamento inicial do Deep Learning ARM64 Base OSS DLAMI para Ubuntu 22.04