As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI de GPU de base de aprendizado profundo (Amazon Linux 2023)
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Amazon Linux 2023
Arquitetura de computação: x86
A versão mais recente disponível está instalada para os seguintes pacotes:
Kernel Linux: 6.1
FSx Lustre
NVIDIA GDS
Docker
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
NVIDIA DCGM
Kit de ferramentas de contêiner Nvidia:
Comando de versão: nvidia-container-cli -V
NVIDIA-Docker 2:
Comando de versão: versão nvidia-docker
Driver NVIDIA: 570.133.20
Pilha NVIDIA CUDA 12.4-12.6 e 12.8:
Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
Versão compilada da NCCL: 2.26.5
CUDA padrão: 12,8
PATH/usr/local/cudaaponta para CUDA 12.8
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.40.0
Nvidia GDRCopy: 2,5
AWS OFI NCCL: 1.14.2-aws
AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação
O caminho de instalação:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libé adicionado ao LD_LIBRARY_PATH.
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
Tipo de volume do EBS: gp3
Python:/3.9 usr/bin/python
NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme
Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de ferramentas de contêiner NVIDIA 1.17.4
No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Política de suporte
Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo
Instâncias P6-B200
As instâncias P6-B200 contêm 8 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas
As instâncias P5en contêm 16 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instâncias P5/P5e
As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
-
A versão do kernel é fixada usando o comando:
sudo dnf versionlock kernel*
-
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
sudo dnf versionlock delete kernel* sudo dnf update -y
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-05-15
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515
Adicionado
Suporte adicional para instâncias P6-B200 EC2
Atualizado
Instalador EFA atualizado da versão 1.38.1 para 1.40.0
Atualizado GDRCopy da versão 2.4 para 2.5
Plugin AWS OFI NCCL atualizado da versão 1.13.0-aws para 1.14.2-aws
Versão NCCL compilada atualizada da versão 2.25.1 para 2.26.5
Versão CUDA padrão atualizada da versão 12.6 para 12.8
Versão Nvidia DCGM atualizada de 3.3.9 para 4.4.3
Data de lançamento: 2025-04-22
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421
Atualizado
Data de lançamento: 2025-03-31
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328
Adicionado
Suporte adicional para NVIDIA GPU Direct Storage (
GDS)
Data de lançamento: 2025-02-17
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 2025-02-15
Atualizado
Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4
Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Removido
As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas
NVIDIA CUDA de 18 de fevereiro de 2025
Data de lançamento: 2025-02-05
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205
Adicionado
Foi adicionado o kit de ferramentas CUDA versão 12.6 no diretório/-12.6 usr/local/cuda
Suporte adicional para instâncias G5 EC2
Removido
As versões 12.1 e 12.2 do CUDA foram removidas deste DLAMI. Os clientes que precisam dessas versões do kit de ferramentas CUDA podem instalá-las diretamente da NVIDIA usando o link abaixo
Data de lançamento: 2025-02-03
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131
Atualizado
Versão EFA atualizada de 1.37.0 para 1.38.0
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Kit de ferramentas de contêiner Nvidia atualizado de 1.17.3 para 1.17.4
Data de lançamento: 2025-01-08
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107
Atualizado
Suporte adicionado para instâncias G4dn
Data de lançamento: 2024-12-09
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206
Atualizado
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3
Data de lançamento: 2024-11-21
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121
Adicionado
Foi adicionado suporte para instâncias P5en. EC2
Atualizado
Instalador EFA atualizado da versão 1.35.0 para 1.37.0
Atualize o plug-in AWS OFI NCCL da versão 1.121-aws para 1.13.0-aws
Data de lançamento: 2024-10-30
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030
Adicionado
Lançamento inicial do Deep Learning Base OSS DLAMI para Amazon Linux 2023
Problemas conhecidos
Esse DLAMI não oferece suporte às instâncias G4dn e EC2 G5 no momento. AWS está ciente de uma incompatibilidade que pode resultar em falhas de inicialização do CUDA, afetando as famílias de instâncias G4dn e G5 ao usar os drivers NVIDIA de código aberto junto com um kernel Linux versão 6.1 ou mais recente. Esse problema afeta distribuições Linux, como Amazon Linux 2023, Ubuntu 22.04 ou mais recente, ou SUSE Linux Enterprise Server 15 SP6 ou mais recente, entre outras.