Apache Hadoop - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apache Hadoop

Apache Hadoop es un marco de trabajo de software de Java de código abierto que admite el procesamiento de grandes conjuntos de datos a través de un clúster de instancias. Se puede ejecutar en una única instancia o en miles de instancias. Hadoop usa muchos modelos de procesamiento, como MapReduce el Tez, para distribuir el procesamiento en varias instancias y también usa un sistema de archivos distribuido llamado HDFS para almacenar datos en varias instancias. Hadoop monitoriza el estado de las instancias del clúster y puede recuperarse de errores en uno o varios nodos. De esta manera, Hadoop proporciona mayor capacidad de almacenamiento y procesamiento, así como mayor disponibilidad. Para obtener más información, consulte la documentación de Hadoop.

En la siguiente tabla, se muestra la versión de Hadoop incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Hadoop.

Para ver la versión de los componentes instalados con Hadoop en esta versión, consulte Versiones de componentes de la versión 7.9.0.

Información sobre la versión de Hadoop para emr-7.9.0
Etiqueta de versión de Amazon EMR Versión de Hadoop Componentes instalados con Hadoop

emr-7.9.0

Hadoop 3.4.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

En la tabla siguiente, se muestra la versión de Hadoop incluida en la última versión de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Hadoop.

Para ver la versión de los componentes instalados con Hadoop en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Hadoop para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de Hadoop Componentes instalados con Hadoop

emr-6.15.0

Hadoop 3.3.6

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

En la tabla siguiente, se muestra la versión de Hadoop incluida en la última versión de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Hadoop.

Para ver la versión de los componentes instalados con Hadoop en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Hadoop para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de Hadoop Componentes instalados con Hadoop

emr-5.36.2

Hadoop 2.10.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

A partir de Amazon EMR 5.18.0, puede utilizar el repositorio de artefactos de Amazon EMR para compilar el código de trabajos con las versiones exactas de las bibliotecas y dependencias que están disponibles con determinadas versiones de Amazon EMR. Para obtener más información, consulte Comprobación de dependencias mediante el repositorio de artefactos de Amazon EMR.