TensorFlow - Amazon EMR

TensorFlow

TensorFlow é uma biblioteca de matemática simbólica de código aberto para aplicações de inteligência de máquina e aprendizado profundo. Para obter mais informações, consulte o site do TensorFlow. O TensorFlow está disponível com as versões 5.17.0 e posteriores do Amazon EMR.

A tabela a seguir lista a versão do TensorFlow incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o TensorFlow.

Para obter a versão dos componentes instalados com o TensorFlow nessa versão, consulte Release 7.10.0 Component Versions.

Informações de versão do TensorFlow para o emr-7.10.0
Rótulo de versão do Amazon EMR Versão do TensorFlow Componentes instalados com o TensorFlow

emr-7.10.0

TensorFlow 2.18.0

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

A tabela a seguir lista a versão do TensorFlow incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o TensorFlow.

Para obter a versão dos componentes instalados com o TensorFlow nessa versão, consulte Release 6.15.0 Component Versions.

Informações de versão do TensorFlow para o emr-6.15.0
Rótulo de versão do Amazon EMR Versão do TensorFlow Componentes instalados com o TensorFlow

emr-6.15.0

TensorFlow 2.11.0

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

A tabela a seguir lista a versão do TensorFlow incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o TensorFlow.

Para obter a versão dos componentes instalados com o TensorFlow nesse lançamento, consulte Release 5.36.2 Component Versions.

Informações de versão do TensorFlow para o emr-5.36.2
Rótulo de versão do Amazon EMR Versão do TensorFlow Componentes instalados com o TensorFlow

emr-5.36.2

TensorFlow 2.4.1

emrfs, emr-goodies, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, tensorflow

Compilações do TensorFlow por tipo de instância do Amazon EC2

O Amazon EMR usa compilações diferentes da biblioteca do TensorFlow de acordo com os tipos de instância que você escolhe para o cluster. O Amazon EMR também oferece suporte ao TensorFlow para clusters com tipos de instância aarch64 (instâncias Graviton) a partir do EMR-7.5.0.

A tabela a seguir lista builds por tipo de instância para EMR-7.10.0:

Tipos de instâncias do EC2 Compilação do TensorFlow

P2, P4D, P5, G4DN, G5, G6 e GR6

Tensorflow 2.18.0 com CUDA 12.5, cuDNN 9.3.0.75

P3, P3DN, G3 e G3S

Tensorflow 2.18.0 com CUDA 12.5, cuDNN 9.3.0.75, NCCL 2.22.3

O Nvidia NCCL está disponível somente nas instâncias P3, P3DN, G3 e G3s com a versão 2.22.3. Contrato de licença do usuário final (EULA): ao usar componentes Nvidia no Amazon EMR, você aceita os termos e condições descritos no EULA do produto.

Instâncias Graviton

Tensorflow 2.18.0

Todos os outros

Tensorflow CPU 2.18.0

Segurança

Além de seguir as orientações em Usar o TensorFlow com segurança, recomendamos que você inicie o cluster em uma sub-rede privada para ajudar você a limitar o acesso a fontes confiáveis. Para obter mais informações, consulte Amazon VPC options no Guia de gerenciamento do Amazon EMR.

Usando o TensorBoard

TensorBoard é um conjunto de ferramentas de visualização para programas TensorFlow. Para obter mais informações, consulte TensorBoard: aprendizagem visualizada no site do Tensorflow.

Para usar o TensorBoard com o Amazon EMR, você deve iniciar o TensorBoard no nó principal do cluster.

Usar o Tensorboard com o Tensorflow no Amazon EMR
  1. Conecte-se ao nó principal do cluster usando SSH. Para obter mais informações, consulte Conectar-se ao nó principal usando SSH no Guia de gerenciamento do Amazon EMR.

  2. Digite o seguinte comando para iniciar o Tensorboard no nó principal. Substitua /my/log/directory por um diretório no nó principal o qual você tiver gerado e armazenado os dados de resumo usando um gravador de resumo.

    Amazon EMR 5.19.0 and later
    python3 -m tensorboard.main --logdir=/home/hadoop/tensor --bind_all
    Amazon EMR 5.18.1 and earlier
    python3 -m tensorboard.main --logdir=/my/log/dir

    Por padrão, o nó principal hospeda o TensorBoard usando a porta 6006 e o nome DNS público principal. Depois de iniciar o TensorBoard, a saída da linha de comando apresenta o URL que pode ser usado para se conectar ao TensorBoard, conforme mostrado no exemplo a seguir:

    TensorBoard 2.18.0 at http://master-public-dns-name:6006 (Press CTRL+C to quit)
  3. Configure o acesso a interfaces web no nó principal a partir de clientes confiáveis. Para obter mais informações, consulte Visualizar interfaces da Web hospedadas em clusters do Amazon EMR no Guia de gerenciamento do Amazon EMR.

  4. Abra o TensorBoard em http://master-public-dns-name:6006.