As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI de aprendizado profundo (Amazon Linux 2)
dica
Os clientes que usam uma estrutura única gostam PyTorch ou TensorFlow são incentivados a usar a estrutura única DLAMIs mencionada aqui.
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Versão $ {XX.X} do driver Nvidia Driver AMI (Amazon Linux 2) proprietário do Deep Learning
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2), versão $ {XX.X}
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI.
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Amazon Linux 2
Arquitetura de computação: x86
Estrutura de ambientes Conda e versões python:
AMI de driver OSS Nvidia de aprendizado profundo (Amazon Linux 2):
python3: Python 3.10
tensorflow2_p310:2.16, Python 3.10 TensorFlow
pytorch_p310:2.2, Python 3.10 PyTorch
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2):
python3: Python 3.10
tensorflow2_p310:2.16, Python 3.10 TensorFlow
pytorch_p310:2.2, Python 3.10 PyTorch
Controlador NVIDIA:
Controlador OSS Nvidia: 550.163.01
Driver proprietário da Nvidia: 550.163.01
Pilha NVIDIA CUDA12 1.1-12.4:
Caminho de instalação de CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
-
CUDA padrão: 12.1
PATH//usr/local/cudaaponta para 1 CUDA12.
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Versão NCCL compilada para CUDA 12.1-12.4:2.22.3
Local dos testes NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.
PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.38.0
GDRCopy: 2,4
AWS OFI NCCL: 1.13.2
Localização do sistema:/usr/local/cuda-xx.x/efa
Isso é adicionado para executar testes NCCL localizados em/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Além disso, o PyTorch pacote vem com o plug-in AWS OFI NCCL vinculado dinamicamente como um pacote conda e também PyTorch usará esse aws-ofi-nccl-dlc pacote em vez do sistema OFI NCCL. AWS
Localização dos testes NCCL:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/local/bin/aws
Tipo de volume EBS: gp3
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Driver proprietário da Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Driver proprietário da Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Avisos
Atualizações do EFA de 1.37 para 1.38 (lançamento em 05/02/2025)
-
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Remoção do ambiente Neuron Conda
-
O driver Nvidia proprietário do Deep Learning AMIs lançado após 18 de julho de 2024 será enviado sem ambientes neuronconda para e. PyTorch TensorFlow Em vez disso, use o Neuron DLAMIs nas notas de lançamento do DLAMI para utilizar ambientes de neurônios.
Remoção do Audit Package
-
Os DLAMI lançados entre 26 de março de 2024 (2024-03-26) e 12 de abril de 2024 (2024-04-12) foram enviados sem o pacote de auditoria. Se você precisar desse pacote específico para suas necessidades de registro e monitoramento, migre seus fluxos de trabalho para o DLAMI mais recente para consumir aqueles com o pacote de auditoria instalado.
Horovod
-
O Horovod foi removido dos ambientes conda pytorch_p310 e tensorflow2_p310 atuais no DLAMI. Os clientes poderão instalar as bibliotecas do horovod seguindo as diretrizes do horovod
e instalá-las em seus trabalhos de treinamento DLAMIs distribuídos.
Data de lançamento: 2025-04-22
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 81.2
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 81.2
Atualizado
Data de lançamento: 2025-02-17
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.6
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.4
Atualizado
-
Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4
Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial “Se você usar uma camada de compatibilidade CUDA” aqui - -gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
Removido
As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas
NVIDIA CUDA de 18 de fevereiro de 2025
Data de lançamento: 2025-02-05
Nomes da AMI
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.2
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.4
Atualizado
-
Versão EFA atualizada de 1.37.0 para 1.38.0
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Data de lançamento: 2025-01-15
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.3
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.1
Atualizado
Data de lançamento: 2024-12-09
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.1
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.9
Atualizado
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3
Data de lançamento: 2024-11-11
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.9
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.7
Atualizado
Data de lançamento: 2024-10-22
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.6
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.6
Atualizado
Data de lançamento: 2024-10-03
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.3
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.3
Atualizado
Data de lançamento: 2024-07-18
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.6
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.7
Atualizado
Os ambientes conda aws_neuron_pytorch_p38 e aws_neuron_tensorflow_p38 foram removidos da AMI de driver Nvidia proprietária de aprendizado profundo.
O suporte à família de instâncias Inf1 foi removido da AMI proprietária do driver Nvidia de aprendizado profundo.
Data de lançamento: 2024-06-06
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.5
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.5
Atualizado
Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-17
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.1
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.1
Atualizado
O torchserve
foi atualizado de v0.8.2 para v0.11.0 no ambiente pytorch_p310 .
Data de lançamento: 2024-05-07
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.0
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.0
Atualizado
TensorFlow versão atualizada de 2.15 para 2.16 no ambiente tensorflow2_p310.
Versão EFA atualizada da versão 1.30 para a versão 1.32
Plugin AWS OFI NCCL atualizado da versão 1.7.4 para a versão 1.9.1
-
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.13.5 para a versão 1.15.0
NOTA: A versão 1.15.0 NÃO inclui os pacotes nvidia-docker2 nvidia-container-runtime e nvidia-docker2. É recomendável usar nvidia-container-toolkit pacotes diretamente seguindo os documentos do kit de ferramentas de contêiner da Nvidia
.
Adicionado
Foi adicionada uma pilha CUDA12 3.0 com 3.3, NCCL CUDA12 2.21.5, cuDNN 8.9.7
Removido
Foram removidas as pilhas de CUDA11 0,7, CUDA12 0,0 presentes em /-12,0 usr/local/cuda-11.7 and /usr/local/cuda
O pacote nvidia-docker2 e seu comando nvidia-docker foram removidos como parte da atualização do kit de ferramentas de contêiner Nvidia de 1.13.5 para 1.15.0, que NÃO inclui os pacotes nvidia-docker2.
nvidia-container-runtime
Data de lançamento: 2024-04-04
Nomes da AMI
Aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 77.0
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 77.0
Atualizado
PyTorch versão atualizada de 2.1 para 2.2 no ambiente pytorch_p310.
Para o driver OSS Nvidia DLAMIs, adicionou suporte às instâncias G6 e EC2 Gr6. Consulte a página de seleção de EC2 instâncias para obter mais informações.
Data de lançamento: 2024-03-29
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.8
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.9
Atualizado
Driver Nvidia atualizado de 535.104.12 para 535.161.08 nos drivers Proprietário e OSS Nvidia. DLAMIs
-
As novas instâncias suportadas para cada DLAMI são as seguintes:
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn, Inf1
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, P4d, P4de.
Removido
Removido o suporte às EC2 instâncias G4dn, G5 e G3.16x do driver proprietário da Nvidia DLAMI.
Versão 76.8
Data de lançamento: 2024-03-20
Nomes da AMI
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.8
Adicionado
Foi adicionado awscliv2 na AMI como/na AMI proprietária usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws do driver Nvidia
Versão 76.7
Data de lançamento: 2024-03-20
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.7
Adicionado
Foi adicionado awscliv2 na AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsno OSS Nvidia Driver AMI
-
O driver OSS Nvidia DLAMI atualizado com suporte para G4dn e G5, com base nele, o suporte atual é o seguinte:
A AMI de driver Nvidia proprietária da Deep Learning Base (Amazon Linux 2) suporta P3, P3dn, G3, G5, G4dn.
O Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) suporta G4dn, G5, P4, P5.
Recomenda-se que o driver DLAMIs OSS Nvidia seja usado para G4dn, G5, P4, P5.
Versão 76.3
Data de lançamento: 2024-02-14
Atualizado
Atualizado TensorFlow de 2.13.0 para 2.15.0
EFA atualizado de 1.29.0 para 1.30.0
AWS-OFI-NCCL atualizado de 1.7.3-aws para 1.7.4-aws
Driver Nvidia atualizado para 535.104.12 na AMI de driver Nvidia proprietária de aprendizado profundo
Driver Nvidia atualizado para 535.154.05 no Deep Learning OSS Nvidia Driver AMI
Versão 76.2
Data de lançamento: 2024-02-02
Nomes da AMI
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.2
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.4
Segurança
Versão 76.1
Data de lançamento: 2023-12-27
Atualizado
Atualizado PyTorch de 2.0.1 para 2.1.0
Versão 75.1
Data de lançamento: 2023-11-17
Consulte Alterações importantes no DLAMI
Nomes da AMI
Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 75.1
AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 75.1
Adicionado
-
AWS A AMI de aprendizado profundo (DLAMI) é dividida em dois grupos separados:
DLAMI que usa o driver proprietário da Nvidia (para suportar P3, P3dn, G3, G5, G4dn).
DLAMI que usa o driver Nvidia OSS para habilitar o EFA (para suportar P4, P5).
Consulte o anúncio público para obter mais informações sobre a divisão do DLAMI.
AWS As consultas cli acima estão nas notas de lançamento
em bullet point Query AMI-ID com (a região de exemplo é us-east-1) AWSCLI
Atualizado
EFA atualizado de 1.26.1 para 1.29.0
GDRCopy atualizado de 2.3 para 2.4
Versão 74.4
Data de lançamento: 2023-10-27
Atualizado
AWS Plugin OFI NCCL atualizado da versão 1.7.2 para a versão 1.7.3
Diretórios CUDA 12.0-12.1 atualizados com NCCL versão 2.18.5
-
CUDA12.1 atualizado como a versão padrão do CUDA
LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Para clientes que desejam mudar para qualquer versão diferente do CUDA, defina as variáveis LD_LIBRARY_PATH e PATH adequadamente.
Almofada atualizada da versão 9.4.0 para 10.1.0 para corrigir SNYK-PYTHON-PILLOW-5918878
em todos os ambientes conda
Adicionado
-
O Kernel Live Patching agora está habilitado. A aplicação dinâmica de patches permite que os clientes apliquem vulnerabilidades de segurança e correções de bugs críticos a um kernel Linux em execução, sem reinicializações ou interrupções na execução de aplicativos.
Observe que o suporte de patches ao vivo para o kernel 5.10.192 terminará em 30/11/23.
Para obter mais informações, consulte os AWS documentos oficiais aqui - https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/al2-live-patching.html
Versão 74.0
Data de lançamento: 2023-07-19
Atualizado
-
Atualizado TensorFlow de 2.12 para 2.13
O Horovod foi removido do ambiente conda nesta versão. Consulte o Aviso para obter detalhes sobre a instalação do horovod.
Versão 73.1
Data de lançamento: 2023-06-12
Atualizado
Atualizado PyTorch de 2.0.0 para 2.0.1