Apache Spark
Apache Spark
Spark admite de forma nativa aplicaciones escritas en Scala, Python y Java. El entorno EMR incluye librerías de integración para SQL (Spark
Puede instalar Spark en un clúster de Amazon EMR junto con otras aplicaciones de Hadoop y el motor puede usar el sistema de archivos de Amazon EMR (EMRFS) para acceder directamente a los datos en Amazon S3. Hive se integra también con Spark para que pueda utilizar un objeto de HiveContext para ejecutar scripts de Hive mediante Spark. Un contexto de Hive se incluye en el shell de Spark como sqlContext.
Para ver un tutorial de ejemplo sobre cómo configurar un clúster de EMR con Spark y analizar un conjunto de datos de muestra, consulte Tutorial: Getting started with Amazon EMR en el blog de noticias de AWS.
importante
La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda CVE-2018-8024
En la siguiente tabla, se muestra la versión de Spark incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 7.10.0.
| Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
|---|---|---|
emr-7.10.0 |
Spark 3.5.5-amzn-1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 6.15.0.
| Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
|---|---|---|
emr-6.15.0 |
Spark 3.4.1-amzn-2 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
nota
La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo log4j2.properties para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuración spark-log4j2 de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x.
En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.
Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones del componente de la versión 5.36.2.
| Etiqueta de versión de Amazon EMR | Versión de Spark | Componentes instalados con Spark |
|---|---|---|
emr-5.36.2 |
Spark 2.4.8-amzn-2 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
Temas
Ejecución de aplicaciones de Spark con Docker en Amazon EMR 6.x
Use el Catálogo de datos de AWS Glue con Spark en Amazon EMR
Almacenamiento en caché de fragmentos de resultados de Spark
Uso del conector Amazon Kinesis Data Streams de streaming estructurado de Spark
Uso de la integración de Amazon Redshift para Apache Spark con Amazon EMR