As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI de base de aprendizado profundo (Amazon Linux 2)
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão $ {XX.X}
Versão $ {XX.X} do driver Nvidia Driver AMI (Amazon Linux 2) da Deep Learning Base
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI.
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Amazon Linux 2
Arquitetura de computação: x86
A versão mais recente disponível está instalada para os seguintes pacotes:
Kernel Linux: 5.10
Docker
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
Kit de ferramentas de contêiner Nvidia:
Comando de versão: nvidia-container-cli -V
NVIDIA-Docker 2:
Comando de versão: versão nvidia-docker
Python:/3.7 usr/bin/python
Controlador NVIDIA:
Controlador OSS Nvidia: 550.163.01
Driver proprietário da Nvidia: 550.163.01
Pilha NVIDIA CUDA 12.1-12.4:
Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
CUDA padrão: 12.1
PATH/usr/local/cudaaponta para CUDA 12.1
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Versão compilada da NCCL: 2.22.3
Local dos testes NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.
PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.38.0
Nvidia GDRCopy: 2.4
AWS OFI NCCL: 1.13.2
AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação
O caminho de instalação:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 é adicionado ao LD_LIBRARY_PATH.
Tipo de volume do EBS: gp3
Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output textDriver proprietário da Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textDriver proprietário da Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de ferramentas de contêiner NVIDIA 1.17.4
No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Atualizações do EFA de 1.37 para 1.38 (lançamento em 04/02/2025)
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Política de suporte
Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo
EC2 instâncias com várias placas de rede
Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.
DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.
Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.
Para cada interface de rede adicional, use o próximo índice de placa de rede não utilizada, o índice de dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Por exemplo, casos de uso, consulte a configuração do EFA para instâncias P5.
Para obter mais informações, consulte o Guia EFA aqui.
Instâncias P5/P5e
As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas
O P5en contém 16 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
A versão do kernel é fixada usando o comando:
sudo yum versionlock kernel*
Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para liberar suas versões do kernel:
sudo yum versionlock delete kernel* sudo yum update -y
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-04-22
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 69.3
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 67.0
Atualizado
Data de lançamento: 2025-02-17
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.5
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.3
Atualizado
O NVIDIA Container Toolkit foi atualizado da versão 1.17.3 para a versão 1.17.4. Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Removido
As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas NVIDIA
CUDA de 18 de fevereiro de 2025
Data de lançamento: 2025-02-04
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.4
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.1
Atualizado
-
Versão EFA atualizada de 1.37.0 para 1.38.0
Data de lançamento: 2025-01-17
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.3
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.0
Atualizado
Data de lançamento: 2025-01-06
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.2
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.9
Atualizado
EFA atualizado da versão 1.34.0 para 1.37.0
AWS OFI NCCL atualizado da versão 1.11.0 para 1.13.0
Data de lançamento: 2024-12-09
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.1
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.8
Atualizado
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3
Data de lançamento: 2024-11-09
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.9
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.6
Atualizado
Data de lançamento: 2024-10-22
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.7
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.4
Atualizado
Data de lançamento: 2024-10-03
Nomes da AMI
Versão AMI do driver OSS Nvidia da Base de Aprendizado Profundo (Amazon Linux 2)
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.2
Atualizado
Data de lançamento: 2024-08-27
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.0
Atualizado
-
Driver Nvidia e Fabric Manager atualizados da versão 535.183.01 para 550.90.07
Removido o requisito de shell multiusuário do Fabric Manager com base nas recomendações da Nvidia
Consulte os problemas conhecidos do driver Tesla 550.90.07 aqui para obter mais informações
Versão EFA atualizada de 1.32.0 para 1.34.0
-
NCCL atualizado para a versão mais recente 2.22.3 para todas as versões CUDA
CUDA 12.1, 12.2 atualizado de 2.18.5+ 2. CUDA12
CUDA 12.3 atualizado de 2.21.5+ 4. CUDA12
Adicionado
Foi adicionado o kit de ferramentas CUDA versão 12.4 no diretório/-12.4 usr/local/cuda
Foi adicionado suporte para instâncias P5e. EC2
Removido
Removida a pilha do CUDA Toolkit versão 11.8 presente no diretório/-11.8 usr/local/cuda
Data de lançamento: 2024-08-19
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 66.3
Adicionado
Foi adicionado suporte para instâncias G6e. EC2
Data de lançamento: 2024-06-06
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 65.4
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.9
Atualizado
Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-02
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 64.7
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.2
Atualizado
Versão EFA atualizada da versão 1.30 para a versão 1.32
Plugin AWS OFI NCCL atualizado da versão 1.7.4 para a versão 1.9.1
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.13.5 para a versão 1.15.0
Adicionado
-
Foi adicionada uma pilha CUDA12 3.0 com 3.3, NCCL CUDA12 2.21.5, cuDNN 8.9.7
A versão 1.15.0 NÃO inclui os pacotes nvidia-container-runtime nvidia-docker2. É recomendável usar nvidia-container-toolkit pacotes diretamente seguindo a documentação do kit de ferramentas de contêineres da Nvidia
.
Removido
Foram removidas as pilhas de CUDA11 0,7, CUDA12 0,0 presentes em /-12,0 usr/local/cuda-11.7 and /usr/local/cuda
O pacote nvidia-docker2 e seu comando nvidia-docker foram removidos como parte da atualização do kit de ferramentas de contêiner Nvidia de 1.13.5 para 1.15.0, que NÃO inclui os pacotes nvidia-docker2 e nvidia-docker2. nvidia-container-runtime
Data de lançamento: 2024-04-04
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 64.0
Adicionado
Para o driver OSS Nvidia DLAMIs, foi adicionado suporte às instâncias G6 e Gr6 EC2
Data de lançamento: 2024-03-29
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 62.3
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.2
Atualizado
Driver Nvidia atualizado de 535.104.12 para 535.161.08 nos drivers Proprietário e OSS Nvidia. DLAMIs
-
As novas instâncias suportadas para cada DLAMI são as seguintes:
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, P4d, P4de, P5.
Removido
Removido o suporte às EC2 instâncias G4dn, G5 e G3.16x do driver proprietário da Nvidia DLAMI.
Data de lançamento: 2024-03-20
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 63.1
Adicionado
Foi adicionado awscliv2 na AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsno OSS Nvidia Driver AMI
Data de lançamento: 2024-03-13
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 63.0
Atualizado
-
O driver OSS Nvidia DLAMI atualizado com suporte para G4dn e G5, com base nele, o suporte atual é o seguinte:
A AMI de driver Nvidia proprietária da Deep Learning Base (Amazon Linux 2) suporta P3, P3dn, G3, G4dn, G5.
O Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) suporta G4dn, G5, P4, P5.
Recomenda-se que o driver DLAMIs OSS Nvidia seja usado para G4dn, G5, P4, P5.
Data de lançamento: 2024-02-13
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 62.1
AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 62.1
Atualizado
Driver OSS Nvidia atualizado de 535.129.03 para 535.154.05
EFA atualizado de 1.29.0 para 1.30.0
AWS OFI NCCL atualizado de 1.7.3-aws para 1.7.4-aws
Data de lançamento: 2024-02-01
Nome da AMI: AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 62.0
Segurança
Versão 6.1.4
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 61.4
Atualizado
Driver OSS Nvidia atualizado de 535.104.12 para 535.129.03
Versão 61.0
Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 61.4
Atualizado
EFA atualizado de 1.26.1 para 1.29.0
GDRCopy atualizado de 2.3 para 2.4
Adicionado
-
AWS A AMI de aprendizado profundo (DLAMI) é dividida em dois grupos separados:
DLAMI que usa o driver proprietário da Nvidia (para suportar P3, P3dn, G3, G5, G4dn).
DLAMI que usa o driver Nvidia OSS para habilitar o EFA (para suportar P4, P5).
Consulte o anúncio público para obter mais informações sobre a divisão do DLAMI.
Para AWS CLI consultas, consulte o marcador Query AMI-ID AWSCLI com (exemplo, a região é us-east-1)
Versão 6.0.6
Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.6
Atualizado
AWS Plugin OFI NCCL atualizado da versão 1.7.2 para a versão 1.7.3
Diretórios CUDA 12.0-12.1 atualizados com NCCL versão 2.18.5
-
CUDA12.1 atualizado como a versão padrão do CUDA
LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Para clientes que desejam mudar para qualquer versão diferente do CUDA, defina as variáveis LD_LIBRARY_PATH e PATH adequadamente.
Adicionado
O Kernel Live Patching agora está habilitado. A aplicação dinâmica de patches permite que os clientes apliquem vulnerabilidades de segurança e correções de bugs críticos a um kernel Linux em execução, sem reinicializações ou interrupções na execução de aplicativos. Observe que o suporte de patches ao vivo para o kernel 5.10.192 terminará em 30/11/23.
Versão 60.5
Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.5
Atualizado
Driver NVIDIA atualizado de 535.54.03 para 535.104.12
Esse driver mais recente corrige as alterações importantes da ABI do NVML encontradas no driver 535.54.03, bem como a regressão do driver encontrada no driver 535.86.10 que afetou os kits de ferramentas CUDA nas instâncias P5. Consulte as seguintes notas de lançamento da NVIDIA para obter detalhes sobre as correções:
Diretórios CUDA 12.2 atualizados com NCCL 2.18.5
EFA atualizado de 1.24.1 para a última 1.26.1
Adicionado
Adicionado CUDA12 1.2 em usr/local/cuda /-12.2
Removido
Suporte removido para CUDA 11.5 e CUDA 11.6
Versão 60.2
Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.2
Atualizado
aws-ofi-ncclPlugin atualizado de v1.7.1 para v1.7.2
Versão 60.0
Data de lançamento: 2023-08-11
Adicionado
Essa AMI agora fornece suporte para a funcionalidade de treinamento de vários nós no P5 e em todas as instâncias suportadas anteriormente EC2
Para EC2 instâncias P5, recomenda-se que o NCCL 2.18 seja usado e foi adicionado a CUDA12 .0 e .1. CUDA12
Removido
Suporte removido para CUDA11 .5.
Versão 59.2
Data de lançamento: 2023-08-08
Removido
CUDA-11.3 e CUDA-11.4 removidos
Versão 59.1
Data de lançamento: 2023-08-03
Atualizado
Plugin AWS OFI NCCL atualizado para v1.7.1
-
Feito em CUDA11 0,8 como padrão, pois PyTorch 2.0 suporta 11,8 e, para a EC2 instância P5, é recomendável usar >= .8 CUDA11
LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Para qualquer versão diferente do cuda, defina LD_LIBRARY_PATH adequadamente.
Fixo
Corrigido o problema de carregamento do pacote Nvidia Fabric Manager (FM) mencionado na data de lançamento anterior de 2023-07-19.
Versão 58.9
Data de lançamento: 2023-07-19
Atualizado
Driver Nvidia atualizado de 525.85.12 para 535.54.03
Instalador EFA atualizado de 1.22.1 para 1.24.1
Adicionado
Foram adicionadas alterações no estado c para desativar o estado ocioso do processador, definindo o estado c máximo como C1. Essa alteração é feita definindo `intel_idle.max_cstate=1 processor.max_cstate=1` nos argumentos de inicialização do linux no arquivo/etc/default/grub
-
AWS EC2 Suporte à instância P5:
Foi adicionado suporte à EC2 instância P5 para fluxos de trabalho usando um único nó/instância. O suporte a vários nós (por exemplo, para treinamento em vários nós) usando o EFA (Elastic Fabric Adapter) e o plug-in AWS OFI NCCL será adicionado em uma versão futura.
Use CUDA>=11,8 para um desempenho ideal.
Problema conhecido: o pacote Nvidia Fabric Manager (FM) leva tempo para carregar no P5, os clientes precisam esperar de 2 a 3 minutos até que o FM seja carregado após iniciar a instância P5. Para verificar se o FM foi iniciado, execute o comando sudo systemctl is-active nvidia-fabricmanager, ele deve retornar ativo antes de iniciar qualquer fluxo de trabalho. Isso será corrigido na próxima versão.
Versão 58.0
Data de lançamento: 2023-05-19
Removido
A pilha CUDA11 .0-11.2 foi removida de acordo com a política de suporte mencionada na seção superior deste documento.
Versão 5.7.3
Data de lançamento: 2023-04-06
Adicionado
Adicionado Nvidia 2.3 GDRCopy
Versão 5.6.8
Data de lançamento: 2023-03-09
Atualizado
Driver NVIDIA atualizado de 515.65.01 para 525.85.12
Adicionado
Adicionado cuda-11.8 em/-11.8/ usr/local/cuda
Versão 56.0
Data de lançamento: 2022-12-06
Atualizado
Versão EFA atualizada de 1.17.2 para 1.19.0
Versão 55.0
Data de lançamento: 2022-11-04
Atualizado
Driver NVIDIA atualizado de 510.47.03 para 515.65.01
Adicionado
Adicionado cuda-11.7 em/-11.7/ usr/local/cuda
Versão 54.0
Data de lançamento: 2022-09-15
Atualizado
Versão EFA atualizada de 1.16.0 para 1.17.2
Versão 53.3
Data de lançamento: 2022-05-25
Atualizado
Atualizado aws-efa-installer para a versão 1.15.2
Atualizado aws-ofi-nccl para a versão 1.3.0-aws, que inclui a topologia para p4de.24xlarge.
Adicionado
Esta versão adiciona suporte para instâncias EC2 p4de.24xlarge.
Versão 53.0
Data de lançamento: 2022-04-28
Adicionado
CloudWatch Agente Amazon adicionado
-
Foram adicionados três serviços systemd que usam arquivos json predefinidos disponíveis em path/opt/aws/amazon-cloudwatch-agent/etc/para configurar métricas de GPU usando o usuário linux cwagent
-
dlami-cloudwatch-agent@minimal
Comandos para ativar as métricas da GPU:
sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
Ele cria essas métricas:
utilization_gpu
,utilization_memory
-
dlami-cloudwatch-agent@partial
Comandos para ativar as métricas da GPU:
sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
Ele cria essas métricas:
utilization_gpu
,utilization_memory
,memory_total
,memory_used
,memory_free
-
dlami-cloudwatch-agent@all
-
Comandos para ativar as métricas da GPU:
sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
Ele cria todas as métricas de GPU disponíveis
-
-
Versão 52.0
Data de lançamento: 2022-03-08
Atualizado
Versão atualizada do Kernel para 5.10
Versão 51.0
Data de lançamento: 2022-03-04
Atualizado
Driver Nvidia atualizado para 510.47.03
Versão 50.0
Data de lançamento: 2022-02-17
Atualizado
Bloqueados aws-neuron-dkms e à tensorflow-model-server-neuron medida que são atualizados para versões mais recentes, que não são suportadas pelos pacotes Neuron presentes na AMI
Comandos se o cliente quiser desbloquear o pacote para atualizá-lo para a versão mais recente: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron
Versão 49.0
Data de lançamento: 2022-01-13
Adicionado
Foi adicionado CUDA11 1.2 com os seguintes componentes:
cuDNN v8.1.1.33
NCCL 2.8.4
CUDA 11.2.2
Atualizado
Link simbólico atualizado pip para pip3
Defasagens
Suporte obsoleto para o tipo de instância P2
O python2.7 foi descontinuado e os pacotes relacionados do python2.7 foram removidos, como “python-dev”, “python-pip” e “python-tk”
Versão 48.0
Data de lançamento: 2021-12-27
Atualizado
O org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar das versões cuda foi removido, pois ele não está sendo usado e não há risco para os usuários que têm os arquivos Log4j. Para obter mais informações, consulte https://nvidia.custhelp.com/app/answers/detail/a_id/5294
.
Versão 47.0
Data de lançamento: 2021-11-24
Atualizado
EFA atualizado para 1.14.1
Versão 46.0
Data de lançamento: 2021-11-12
Atualizado
Pacotes Neuron atualizados de aws-neuron-dkms =1.5. *, aws-neuron-runtime-base =1,5. *, aws-neuron-tools =1,6.* a =2,2. aws-neuron-dkms *, aws-neuron-runtime-base =1,6. *, aws-neuron-tools =2,0.*.
O pacote Neuron foi removido aws-neuron-runtime =1.5.*, pois o Neuron não tem mais um tempo de execução em execução como daemon e o tempo de execução agora está integrado à estrutura como uma biblioteca.
Versão 45.0
Data de lançamento: 2021-10-21
Adicionado
Os relatórios de verificação de segurança no formato JSON estão disponíveis em/opt/aws/dlami/info/.
Versão 44.0
Data de lançamento: 2021-10-08
Alterado
Para cada execução de instância usando DLAMI, a tag aws-dlami-autogenerated-tag "do-not-delete-" será adicionada, AWS permitindo coletar o tipo de instância, o ID da instância, o tipo de DLAMI e as informações do sistema operacional. Nenhuma informação sobre os comandos usados na DLAMI é coletada ou retida. Nenhuma outra informação sobre a DLAMI é coletada ou retida. Para desativar o rastreamento de uso do seu DLAMI, adicione uma tag à sua instância da EC2 Amazon durante o lançamento. A tag deve usar a chave OPT_OUT_TRACKING com o valor associado definido como true. Para obter mais informações, consulte Marcar seus EC2 recursos da Amazon.
Segurança
Versão atualizada do docker para docker-20.10.7-3
Versão 43.0
Data de lançamento: 2021-08-24
Alterado
“notebook” atualizado para a versão “6.4.1".
Versão 42.0
Data de lançamento: 2021-07-23
Alterado
O driver Nvidia e a versão do Fabric Manager foram atualizados para 450.142.00.
Versão 41.0
Data de lançamento: 2021-06-24
Alterado
Pacotes Neuron atualizados de acordo com o Neuron Release v1.14.0
Versão 40.0
Data de lançamento: 2021-06-10
Alterado
Versão awscli atualizada para 1.19.89
Versão 39.0
Data de lançamento: 2021-05-27
Segurança
Componentes vulneráveis do CUDA-10.0 (Visual Profiler, Nsight EE e JRE) foram removidos da instalação do CUDA-10.0 (/-10.0). usr/local/cuda
Versão 38.0
Data de lançamento: 2021-05-25
Alterado
Runc atualizado para o mais recente
Versão 37.0
Data de lançamento: 2021-04-23
Alterado
O driver Nvidia Tesla e a versão do Fabric Manager foram atualizados para 450.119.03.
Versão 36.1
Data de lançamento: 2021-04-21
Fixo
Corrigido um problema que diminuía a velocidade de inicialização da instância.
Versão 36.0
Data de lançamento: 2021-03-24
Adicionado
Adicionado tensorflow-model-server-neuron para oferecer suporte ao serviço de modelos de neurônios.
Alterado
O jupyterlab foi atualizado para a versão 3.0.8 para python3.
Fixo
A instalação antiga do OpenMPI emusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/está disponível.
Remova a definição duplicada e inexistente de ambientes de shell que estão poluindo as variáveis de ambiente de shell, como PATH e LD_LIBRARY_PATH. Como resultado, ~/.dlami e/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh foram adicionados.
Segurança
Versão 35.0
Data de lançamento: 2021-03-08
Adicionado
Instalação adicionada do TensorRT
CUDA 11.0
Versão 34.3
Data de lançamento: 2021-02-25
Fixo
Corrigido um erro de digitação no MOTD (mensagem do dia) que exibia incorretamente a versão 34.1.
Versão 34.2
Data de lançamento: 2021-02-24
Segurança
Python2 e python3 corrigidos para CVE-2021-3177
Problema conhecido
Há um erro de digitação na MOTD (mensagem do dia) que exibiu incorretamente a versão 34.1. Lançaremos a versão 34.3 para resolver esse problema.
Versão 34.0
Data de lançamento: 2021-02-09
Alterado
Fixado o pip na versão 20.3.4 para python2, esta é a última versão do pip que suporta python2 e python3.5.
Versão 33.0
Data de lançamento: 2021-01-19
Alterado
Versão cuDNN atualizada para CUDA11 v8.0.5.39 em .0 e .1. CUDA11
Versão 32.0
Data de lançamento: 2020-12-01
Adicionado
Foi adicionado CUDA11 1 com NCCL 2.7.8, cuDNN 8.0.4.30 para AMI de aprendizado profundo (Amazon Linux 2), AMI de aprendizado profundo (Ubuntu 16.04), AMI de aprendizado profundo (Ubuntu 18.04), AMI de base de aprendizado profundo (Ubuntu 16.04), AMI de base de aprendizado profundo (Ubuntu 18.04), AMI de base de aprendizado profundo (Amazon Linux 2).
Versão 31.0
Data de lançamento: 2020-11-02
Alterado
Instalador EFA atualizado para a versão 1.10.0.
Versão cuDNN atualizada para v8.0.4.30 para CUDA 11.0.
AWS Neuron atualizado para a versão 1.1
Versão 30.0
Data de lançamento: 2020-10-08
Alterado
Versões atualizadas do driver NVIDIA e do Fabric Manager para 450.80.02
NCCL atualizado para 2.7.8 in for 0. CUDA11
Fixo
Corrigido um problema em que o pacote python gerenciado yum era substituído por instalações gerenciadas por pip. Os executáveis pip, pip3 e pip3.7 foram movidos de/parte dessa correção. usr/binto /usr/local/binas
Versão 29.0
Data de lançamento: 2020-09-11
Alterado
Driver NVIDIA atualizado da versão 450.51.05 para 450.51.06
Adicionado o NVIDIA Fabric Manager versão 450.51.06
EFA atualizado para 1.9.4
Versão 28.0
Data de lançamento: 2020-08-19
Alterado
Foi adicionada a pilha CUDA 11.0 com NCCL 2.7.6 e cuDNN 8.0.2.39
Versão 27.0
Data de lançamento: 2020-08-07
Alterado
EFA atualizado da versão 1.7.1 para 1.9.3 em/opt/amazon/efa
O Open MPI atualizado da versão 4.0.3 para 4.0.4 em usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun '/' ainda está na versão 4.0.3
Driver NVIDIA atualizado de 440.33.01 para 450.51.05
Versão NCCL atualizada de 2.6.4 para 2.7.6 em 0.2 CUDA1
Versão 26.0
Data de lançamento: 2020-08-03
Alterado
AWS OFI NCCL atualizado para o mais recente, veja aqui
para obter mais detalhes. O Cuda 8.0/9.0/9.2 foi removido da AMI
Fixo
Corrigido um erro em que o arquivo de objeto compartilhado: libopencv_dnn.so.4.2 não podia ser aberto.
Versão 25.0
Data de lançamento: 2020-07-19
Alterado
Versão EFA atualizada para 1.7.1 para suportar NCCL 2.6.4
Versão NCCL atualizada para 2.6.4 para CUDA 10.2
versão awscli atualizada de 1.16.76 para 1.18.80
versão boto3 atualizada de 1.9.72 para 1.14.3
Versão 24.1
Data de lançamento: 2020-06-14
Alterado
Versão do Docker atualizada para 19.03.6
Versão 24.0
Data de lançamento: 2020-05-20
Alterado
Versão do Docker atualizada para 19.03.6
Versão 23.0
Data de lançamento: 2020-04-29
Alterado
Versões atualizadas do pacote python
Versão 22.0
Data de lançamento: 2020-03-04
Alterado
Foi adicionada a pilha CUDA 10.2
CUDA 10.0 e 10.1 atualizados para as versões cuDNN e NCCL