Cambios importantes en el controlador de NVIDIA en DLAMIs - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cambios importantes en el controlador de NVIDIA en DLAMIs

El 15 de noviembre de 2023, AWS se realizaron cambios importantes en el AWS Deep Learning AMIs (DLAMI) relacionados con el controlador NIVIDA que utilizaba. DLAMIs Para obtener información sobre los cambios y si afectan a su uso, consulte. DLAMIs Cambio de controlador DLAMI NVIDIA FAQs

Cambio de controlador DLAMI NVIDIA FAQs

¿Qué ha cambiado?

Nos DLAMIs dividimos en dos grupos separados:

  • DLAMIs que utilizan el controlador propietario de NVIDIA (compatible con P3, P3dn, G3)

  • DLAMIs que utilizan el controlador NVIDIA OSS (compatible con G4dn, G5, P4, P5)

Como resultado, creamos nuevos nombres DLAMIs para cada una de las dos categorías con nuevos nombres y una nueva AMI IDs. No DLAMIs son intercambiables. Es decir, los DLAMIs miembros de un grupo no apoyen las instancias que el otro grupo apoya. Por ejemplo, la DLAMI que admite P5 no es compatible con G3 y la DLAMI que admite G3 no es compatible con P5.

Bifurcación de DLAMI

¿Por qué era necesario este cambio?

Anteriormente, DLAMIs para NVIDIA GPUs incluía un controlador de kernel propietario de NVIDIA. Sin embargo, la comunidad de kernel de Linux ascendente aceptó un cambio que impide que los controladores de kernel patentados, como el controlador de GPU de NVIDIA, se comuniquen con otros controladores de kernel. Este cambio deshabilita el GPUDirect RDMA en las instancias de las series P4 y P5, que es el mecanismo que permite utilizar la EFA de manera eficiente GPUs para la formación distribuida. Como resultado, DLAMIs ahora utilice el controlador OpenRM (controlador de código abierto de NVIDIA), vinculado a los controladores EFA de código abierto, para admitir G4dn, G5, P4 y P5. Sin embargo, dicho controlador OpenRM no es compatible con instancias más antiguas (como P3 y G3). Por lo tanto, para asegurarnos de seguir ofreciendo versiones actuales, eficaces y seguras DLAMIs que admitan ambos tipos de instancias, nos DLAMIs dividimos en dos grupos: uno con el controlador OpenRM (que admite G4dn, G5, P4 y P5) y otro con el controlador propietario anterior (que admite P3, P3dn y G3).

¿ DLAMIs A qué afectó este cambio?

Este cambio afectó a todos DLAMIs.

¿En qué le afecta esto a usted?

Todas DLAMIs seguirán proporcionando funcionalidad, rendimiento y seguridad siempre que las ejecute en un tipo de instancia de Amazon Elastic Compute Cloud (Amazon EC2) compatible. Para determinar los tipos de EC2 instancias que admite una DLAMI, consulte las notas de la versión de esa DLAMI y, a continuación, busque Instancias compatibles. EC2 Para obtener una lista de las opciones de DLAMI compatibles actualmente y los enlaces a sus notas de versión, consulte Notas de la AMIs versión de Deep Learning.

Además, debe usar los comandos correct AWS Command Line Interface (AWS CLI) para invocar la actual. DLAMIs

Para bases DLAMIs compatibles con P3, P3dn y G3, usa este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Para bases DLAMIs compatibles con G4dn, G5, P4 y P5, utilice este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

¿Hay alguna pérdida de funcionalidad con la versión más nueva? DLAMIs

No, no hay ninguna pérdida de funcionalidad. Las actuales DLAMIs proporcionan toda la funcionalidad, el rendimiento y la seguridad de las anteriores DLAMIs, siempre que las ejecutes en un tipo de EC2 instancia compatible.

¿Los contenedores de aprendizaje profundo se vieron afectados por este cambio?

No, este cambio no afectó a AWS Deep Learning Containers porque no incluyen el controlador NVIDIA. Sin embargo, asegúrese de ejecutar Deep Learning Containers AMIs que sean compatibles con las instancias subyacentes.