Cambios importantes en el controlador NVIDIA de las DLAMI - AWS Deep Learning AMIs

Cambios importantes en el controlador NVIDIA de las DLAMI

El 15 de noviembre de 2023, AWS efectuó cambios importantes en las AWS Deep Learning AMIs (DLAMI) relacionados con el controlador NVIDIA que utilizan dichas DLAMI. Para obtener información sobre los cambios y si afectan al uso de las DLAMI, consulte Preguntas frecuentes sobre el cambio de controlador NVIDIA de las DLAMI.

Preguntas frecuentes sobre el cambio de controlador NVIDIA de las DLAMI

¿Qué ha cambiado?

Dividimos las DLAMI en dos grupos separados:

  • Las DLAMI que utilizan el controlador con software patentado de NVIDIA (para admitir P3, P3dn, G3)

  • Las DLAMI que utilizan el controlador con software de código abierto de NVIDIA (para admitir G4dn, G5, P4, P5)

Como resultado, creamos nuevas DLAMI para cada una de las categorías con nuevos nombres y nuevos ID de AMI. Estas DLAMI no son intercambiables. Es decir, las DLAMI de un grupo no son compatibles con las instancias del otro grupo. Por ejemplo, la DLAMI que admite P5 no es compatible con G3 y la DLAMI que admite G3 no es compatible con P5.

Bifurcación de DLAMI

¿Por qué era necesario este cambio?

Anteriormente, las DLAMI para las GPU de NVIDIA incluían un controlador del kernel que es propiedad de NVIDIA. Sin embargo, la comunidad de kernel de Linux ascendente aceptó un cambio que impide que los controladores de kernel patentados, como el controlador de GPU de NVIDIA, se comuniquen con otros controladores de kernel. Este cambio inhabilita en las instancias de las series P4 y P5 el RDMA de GPUDirect, que es el mecanismo que permite a las GPU utilizar EFA de forma eficiente durante la formación distribuida. Así pues, actualmente las DLAMI utilizan el controlador OpenRM (el controlador de código abierto de NVIDIA), vinculado a los controladores EFA de código abierto para admitir G4dn, G5, P4 y P5. Sin embargo, dicho controlador OpenRM no es compatible con instancias más antiguas (como P3 y G3). Por lo tanto, para garantizar que podemos continuar proporcionando DLAMI actualizadas, seguras, de alto rendimiento y compatibles con ambos tipos de instancias, las hemos dividido en dos grupos: uno con el controlador OpenRM (que admite G4dn, G5, P4 y P5) y otro con el controlador patentado anterior (que admite P3, P3dn y G3).

¿A qué DLAMI afectó este cambio?

Este cambio afectó a todas las DLAMI.

¿En qué le afecta esto a usted?

Todas las DLAMI seguirán ofreciendo funcionalidad, rendimiento y seguridad siempre y cuando las ejecute en una instancia de Amazon Elastic Compute Cloud (Amazon EC2) de un tipo compatible. Para determinar los tipos de instancias de EC2 compatibles con una DLAMI, consulte las notas de la versión de esa DLAMI y, a continuación, busque las instancias EC2 compatibles. Para obtener una lista de las opciones de DLAMI compatibles actualmente y los enlaces a sus notas de versión, consulte Notas de publicación de las AMI de aprendizaje profundo.

Además, debe utilizar los comandos correctos de AWS Command Line Interface (AWS CLI) para invocar a las DLAMI actuales.

Para las DLAMI base compatibles con P3, P3dn y G3, utilice este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Para las DLAMI base compatibles con G4dn, G5, P4 y P5, utilice este comando:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

¿Hay alguna pérdida de funcionalidad en las DLAMI más nuevas?

No, no hay ninguna pérdida de funcionalidad. Las DLAMI actuales proporcionan toda la funcionalidad, el rendimiento y la seguridad de las DLAMI anteriores, siempre que se ejecuten en un tipo de instancia de EC2 compatible.

¿Los contenedores de aprendizaje profundo se vieron afectados por este cambio?

No, este cambio no afectó a los contenedores de aprendizaje profundo de AWS porque estos no incluyen el controlador de NVIDIA. Sin embargo, asegúrese de ejecutar los contenedores de aprendizaje profundo en AMI que sean compatibles con las instancias subyacentes.