Alterações importantes do driver da NVIDIA nas DLAMIs - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Alterações importantes do driver da NVIDIA nas DLAMIs

Em 15 de novembro de 2023, a AWS fez mudanças importantes nas AMIs de deep learning da AWS (DLAMI) relacionadas ao driver da NIVIDA que as DLAMIs usam. Para ter informações sobre o que mudou e se isso afeta seu uso das DLAMIs, consulte Perguntas frequentes sobre as alterações do driver da NVIDIA para DLAMI.

Perguntas frequentes sobre as alterações do driver da NVIDIA para DLAMI

O que mudou?

Dividimos as DLAMIs em dois grupos:

  • DLAMIs que usam driver proprietário da NVIDIA (para oferecer suporte a P3, P3dn e G3)

  • DLAMIs que usam driver OSS da NVIDIA (para oferecer suporte a G4dn, G5, P4 e P5)

Como resultado, criamos DLAMIs para cada uma das duas categorias com novos nomes e novos IDs de AMI. Essas DLAMIs não são intercambiáveis. Ou seja, as DLAMIs de um grupo não oferecem suporte a instâncias compatíveis com o outro grupo. Por exemplo, a DLAMI compatível com P5 não é compatível com G3, enquanto a DLAMI compatível com G3 não é compatível com P5.

Bifurcação da DLAMI

Por que essa alteração foi necessária?

Anteriormente, as DLAMIs para GPUs NVIDIA incluíam um driver de kernel proprietário da NVIDIA. No entanto, a comunidade do kernel Linux upstream aceitou uma alteração que isola os drivers de kernel proprietários, como o driver da GPU NVIDIA, da comunicação com outros drivers de kernel. Essa alteração desabilita o GPUDirect RDMA nas instâncias das séries P4 e P5, que é o mecanismo que permite que as GPUs usem o EFA de forma eficiente para treinamento distribuído. Como resultado, as DLAMIs agora usam o driver OpenRM (driver de código aberto da NVIDIA), vinculado aos drivers do EFA de código aberto para oferecer suporte a G4dn, G5, P4 e P5. No entanto, esse driver OpenRM não oferece suporte a instâncias mais antigas (como P3 e G3). Portanto, para garantir que continuemos a fornecer DLAMIs atuais, de alto desempenho, seguras e compatíveis com os dois tipos de instância, dividimos as DLAMIs em dois grupos: um com o driver OpenRM (compatível com G4dn, G5, P4 e P5) e outro com o driver proprietário mais antigo (compatível com P3, P3dn e G3).

Quais DLAMIs essa alteração afetou?

Essa alteração afetou todas as DLAMIs.

O que isso significa para você?

Todas as DLAMIs continuarão fornecendo funcionalidade, desempenho e segurança, desde que executados em um tipo de instância compatível do Amazon Elastic Compute Cloud (Amazon EC2). Para determinar os tipos de instância do EC2 compatíveis com uma DLAMI, verifique as notas de lançamento da DLAMI específica, depois procure as instâncias do EC2 compatíveis. Para conferir uma lista das opções de DLAMI atualmente compatíveis e links para as respectivas notas de lançamento, consulte Notas de AMIs lançamento do Deep Learning.

Além disso, você deve usar os comandos corretos da AWS Command Line Interface (AWS CLI) para invocar as DLAMIs atuais.

Para DLAMIs básicas que são compatíveis com P3, P3dn e G3, use este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Para DLAMIs básicas que são compatíveis com G4dn, G5, P4 e P5, use este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Há alguma perda de funcionalidade com as DLAMIs mais recentes?

Não, não há nenhuma perda de funcionalidade. As DLAMIs atuais fornecem toda a funcionalidade, desempenho e segurança das DLAMIs anteriores, desde que você as execute em um tipo de instância do EC2 compatível.

Essa mudança afetou os contêineres de aprendizado profundo?

Não, essa alteração não afetou os contêineres de deep learning da AWS, porque eles não incluem o driver da NVIDIA. No entanto, execute os contêineres de deep learning da em AMIs compatíveis com as instâncias subjacentes.