AWSAMI de aprendizaje profundo de - GPU TensorFlow 2.16 (Amazon Linux 2)
Para obtener ayuda para comenzar, consulte Introducción a las DLAMI.
Formato del nombre de AMI
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}
Instancias de EC2 admitidas
Consulte el documento de cambios importantes en la DLAMI.
El aprendizaje profundo con el controlador con software de código abierto de Nvidia admite G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e y P5en.
El aprendizaje profundo con el controlador propietario de Nvidia admite G3 (no admite G3.16x), P3 y P3dn.
La AMI incluye lo siguiente:
Servicio de AWS compatible: EC2
Sistema operativo: Amazon Linux 2
Arquitectura de cómputo: x86
Python: /opt/tensorflow/bin/python3.10
Versión de TensorFlow: 2.16
Controlador de NVIDIA:
Controlador con software de código abierto de Nvidia: 550.144.03
Controlador propietario Nvidia: 550.144.03
Pila CUDA12 de NVIDIA:
Ruta de instalación de CUDA, NCCL y cuDDN: /usr/local/cuda-12.2/
Instalador de EFA: 1.34.0
AWS CLI v2 como aws2 y AWS CLI v1 como aws
Tipo de volumen EBS: gp3
AMI-ID de la consulta con el parámetro SSM (la región de ejemplo es us-east-1):
Controlador con software de código abierto de Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output textControlador propietario Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
AMI-ID de la consulta con AWSCLI (la región de ejemplo es us-east-1):
Controlador con software de código abierto de Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output textControlador propietario Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Aviso
Kit de herramientas de contenedor de NVIDIA: 1.17.4
En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir sus bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial “Si utiliza una capa de compatibilidad con CUDA”, aquí: https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat.
Actualizaciones futuras del sistema operativo de TensorFlow
TensorFlow 2.16 será la última DLAMI que utilice el sistema operativo Ubuntu 20.04. A partir de TensorFlow 2.17 y las versiones posteriores, las DLAMI comenzarán a utilizar Ubuntu 22.04 como sistema operativo base. Los clientes que deseen actualizar a estas nuevas versiones deben asegurarse de que sus flujos de trabajo estén preparados para esta actualización.
La versión de Keras está anclada a la 2.0 en lugar de a la 3.0
Con la última versión de TF2.16, Keras se ha actualizado de la versión principal 2 a la versión principal 3.0. Esta versión de Keras es una reescritura completa del paquete de Keras (consulte la documentación de Keras 3
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS
Fecha de la versión: 17/02/2025
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20250215
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20250215
Actualizado
Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.17.3 a la versión 1.17.4.
Consulte la página de notas de la versión aquí para obtener más información: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir sus bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial “Si utiliza una capa de compatibilidad con CUDA”, aquí: https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat.
Eliminaciones
Se han eliminado las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas de CUDA de NVIDIA
para corregir los CVE, tal como aparecen en el boletín de seguridad del kit de herramientas de CUDA de NVIDIA del 18 de febrero de 2025 .
Fecha de la versión: 20/01/2025
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20250120
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20250118
Actualizado
Se ha actualizado el controlador de Nvidia de la versión 550.127.05 a la 550.144.03 para corregir los CVE, tal como aparecen en el boletín de seguridad de los controladores de pantalla de GPU de NVIDIA de enero de 2025
.
Fecha de la versión: 23/10/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20241022
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20241023
Actualizado
Se ha actualizado el controlador de Nvidia de la versión 550.90.07 a la 550.127.05 para corregir los CVE, tal como aparecen en el boletín de seguridad de pantalla de GPU de NVIDIA de octubre de 2024
.
Fecha de la versión: 28/09/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240928
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240928
Actualizado
Se ha actualizado el kit de herramientas de contenedores de Nvidia de la versión 1.16.1 a la 1.16.2 para corregir la vulnerabilidad de seguridad CVE-2024-0133
.
Fecha de la versión: 21/09/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240921
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240921
Actualizado
Se han actualizado el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07.
Se ha actualizado EFA de la versión 1.32.0 a la 1.34.0.
Se ha actualizado PyTorch de la versión 2.3.0 a la 2.3.1.
Se agregó
Se ha añadido compatibilidad para la instancia EC2 P5e en las imágenes del controlador con software de código abierto de Nvidia.
Fecha de la versión: 19/08/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240817
Se agregó
Se ha agregado compatibilidad para la instancia EC2 G6e
.
Versión 2.16.2. - Fecha de lanzamiento: 26/07/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240725
Actualizado
Se ha actualizado la versión del parche TensorFlow de la versión 2.16.1 a la 2.16.2
Se ha resuelto una versión secundaria incorrecta de TensorFlow en la DLAMI publicada el 17/07/2024.
La versión de la AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240717 contenía inadvertidamente la versión secundaria 2.17 de TensorFlow en lugar de la 2.16. Asegúrese de que los flujos de trabajo que dependen de TensorFlow 2.16 se actualicen a la última DLAMI.
Versión 2.16.1 - Fecha de lanzamiento: 10/06/2024
Nombres de AMI:
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240607
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240610
Actualizado
Se ha actualizado la versión del controlador Nvidia de la 535.183.01 a la 535.161.08.
Fecha de la versión: 2024-05-10
Consulte el documento de cambios importantes en la DLAMI.
Nombres de AMI:
AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240510
AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2) 20240510
Se agregó
Publicación inicial de:
Serie de AMI de aprendizaje profundo del controlador propietario de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2).
Serie de AMI de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU TensorFlow 2.16 (Amazon Linux 2).
El software incluye lo siguiente:
“nvidia-driver=535.161.08”
"fabric-manager=535.161.08”
“cuda=12.3”
“cudnn=8.9.7”
“efa=1.32.0”
“nccl=2.21.5”
“aws-nccl-ofi-plugin=v1.9.1-aws”
Se ha añadido el entorno virtual tensorflow (fuente del comando de activación /opt/tensorflow/bin/activate). Este entorno incluye lo siguiente:
“tensorflow=2.16.1”
NOTA
A partir de TF2.16, se elimina la API tf.estimator.
Para seguir usando tf.estimator, se deberá usar TF 2.15 o una versión anterior. Consulte las notas de la versión de TensorFlow 2.16.1
para obtener más información
Para garantizar la compatibilidad con los flujos de trabajo de los clientes, hemos anclado las versiones de Keras en la 2.0 mediante la variable de entorno TF_USE_LEGACY_KERAS=1. Si sus flujos de trabajo requieren usar Keras 3.0, elimine esta variable de entorno de su entorno virtual de TensorFlow /opt/tensorflow mediante el siguiente script:
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS