TensorFlow - Amazon EMR

TensorFlow

TensorFlow es una biblioteca matemática simbólica de código abierto para aplicaciones de inteligencia artificial y aprendizaje profundo. Para más información, consulte el sitio web de TensorFlow. TensorFlow está disponible con la versión 5.17.0 y posteriores de Amazon EMR.

En la siguiente tabla, se muestra la versión de TensorFlow incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con TensorFlow.

Para ver la versión de los componentes instalados con TensorFlow en esta versión, consulte Versiones de los componentes de la versión 7.10.0.

Información de la versión de TensorFlow para emr-7.10.0
Etiqueta de versión de Amazon EMR Versión de TensorFlow Componentes instalados con TensorFlow

emr-7.10.0

TensorFlow 2.18.0

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

En la tabla siguiente, se muestra la versión de TensorFlow que se incluye en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con TensorFlow.

Para ver la versión de los componentes instalados con TensorFlow en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de TensorFlow para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de TensorFlow Componentes instalados con TensorFlow

emr-6.15.0

TensorFlow 2.11.0

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

En la tabla siguiente, se muestra la versión de TensorFlow que se incluye en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con TensorFlow.

Para ver la versión de los componentes instalados con TensorFlow en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de TensorFlow para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de TensorFlow Componentes instalados con TensorFlow

emr-5.36.2

TensorFlow 2.4.1

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

Compilaciones de TensorFlow por tipo de instancia de Amazon EC2

Amazon EMR utiliza diferentes compilaciones de la biblioteca de TensorFlow en función de los tipos de instancias que elija para el clúster. Amazon EMR también admite TensorFlow para clústeres con tipos de instancias aarch64 (instancias Graviton) de EMR-7.5.0 y versiones posteriores.

En la siguiente tabla, se muestran las compilaciones por tipo de instancia para EMR-7.10.0.

Tipos de instancias de EC2 Compilación de TensorFlow

P2, P4D, P5, G4DN, G5, G6 y GR6

Tensorflow 2.18.0 con CUDA 12.5, cuDNN 9.3.0.75

P3, P3DN, G3 y G3S

Tensorflow 2.18.0 con CUDA 12.5, CuDNN 9.3.0.75, NCCL 2.22.3

Nvidia NCCL solo está disponible en las instancias P3, P3DN, G3 y G3s con la versión 2.22.3. Contrato de licencia para el usuario final (CLUF): al utilizar componentes Nvidia en Amazon EMR, acepta los términos y condiciones que se detallan en el CLUF del producto.

Instancias de graviton

TensorFlow 2.18.0

Todos los demás

Tensorflow 2.18.0

Seguridad

Además de seguir las instrucciones que figuran en Uso seguro de TensorFlow, recomendamos lanzar el clúster en una subred privada para ayudarle a limitar el acceso a los orígenes de confianza. Para más información, consulte Opciones de Amazon VPC en la Guía de administración de Amazon EMR.

Uso de TensorBoard

TensorBoard es un conjunto de herramientas de visualización para los programas de TensorFlow. Para más información, consulte TensorBoard: aprendizaje visualizado en el sitio web de TensorFlow.

Para utilizar TensorBoard con Amazon EMR, debe iniciar TensorBoard en el nodo maestro del clúster.

Para utilizar TensorBoard con TensorFlow en Amazon EMR
  1. Conecte al nodo principal del clúster utilizando SSH. Para obtener más información, consulte Conexión al nodo maestro mediante SSH en la Guía de administración de Amazon EMR.

  2. Escriba el comando siguiente para iniciar Tensorboard en el nodo principal. Sustituya /my/log/directory por un directorio del nodo principal donde haya generado y almacenado datos de resumen utilizando un generador de resúmenes.

    Amazon EMR 5.19.0 and later
    python3 -m tensorboard.main --logdir=/home/hadoop/tensor --bind_all
    Amazon EMR 5.18.1 and earlier
    python3 -m tensorboard.main --logdir=/my/log/dir

    De forma predeterminada, el nodo principal aloja TensorBoard utilizando el puerto 6006 y el nombre de DNS público principal. Después de iniciar TensorBoard, la salida de la línea de comandos presenta la URL que se puede utilizar para conectarse a TensorBoard, tal y como se muestra en el ejemplo siguiente:

    TensorBoard 2.18.0 at http://master-public-dns-name:6006 (Press CTRL+C to quit)
  3. Configure el acceso a las interfaces web en el nodo principal desde los clientes de confianza. Para más información, consulte Ver interfaces web alojadas en los clústeres de Amazon EMR en la Guía de administración de Amazon EMR.

  4. Abra TensorBoard en http://master-public-dns-name:6006.