Apache Spark

Apache Spark es un marco de procesamiento distribuido y un modelo de programación que lo ayuda a aplicar machine learning, procesamiento de flujos o análisis de gráficos con clústeres de Amazon EMR. Del mismo modo que Apache Hadoop, Spark es un sistema de procesamiento distribuido de código abierto utilizado frecuentemente para cargas de trabajo de big data. Sin embargo, Spark tiene varias diferencias notables con respecto a Hadoop MapReduce. Spark tiene un motor de ejecución optimizado de gráficos acíclicos dirigidos (DAG) y almacena en caché datos en memoria de forma activa, lo que puede aumentar el rendimiento especialmente para ciertos algoritmos y consultas interactivas.

Spark admite de forma nativa aplicaciones escritas en Scala, Python y Java. El entorno EMR incluye librerías de integración para SQL (Spark), machine learning (MLlib), procesamiento de flujos (Spark Streaming) y procesamiento de gráficos (GraphX). Estas herramientas facilitan que Spark aproveche el marco para una amplia variedad de casos de uso.

Puede instalar Spark en un clúster de Amazon EMR junto con otras aplicaciones de Hadoop y el motor puede usar el sistema de archivos de Amazon EMR (EMRFS) para acceder directamente a los datos en Amazon S3. Hive también está integrado con Spark, por lo que puedes usar un HiveContext objeto para ejecutar scripts de Hive con Spark. Un contexto de Hive se incluye en el shell de Spark como sqlContext.

Para ver un ejemplo de tutorial sobre cómo configurar un clúster de EMR con Spark y analizar un conjunto de datos de muestra, consulte Tutorial: Cómo empezar con Amazon EMR en el blog de noticias. AWS

Puede usar el agente de solución de problemas de Apache Spark para solucionar problemas de sus aplicaciones de Apache Spark en EMR en EC2 y EMR Serverless. Para obtener más información, consulte. ¿Qué es el agente de solución de problemas de Apache Spark para Amazon EMR y AWS Adherencia

importante

La versión 2.3.1 de Apache Spark, disponible a partir de la versión 5.16.0 de Amazon EMR, aborda y. CVE-2018-8024 CVE-2018-1334 Se recomienda migrar las versiones anteriores de Spark a la versión 2.3.1 o posteriores de Spark.

En la siguiente tabla, se muestra la versión de Spark incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de componentes de la versión 7.13.0.

Información sobre la versión de Spark para emr-7.13.0
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-7.13.0	Spark 3.5.6-amzn-2	delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 6.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de Spark para emr-6.15.0
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-6.15.0	Spark 3.4.1-amzn-2	aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

nota

La versión 6.8.0 de Amazon EMR incluye la versión 3.3.0 de Apache Spark. Esta versión de Spark utiliza Apache Log4j 2 y el archivo log4j2.properties para configurar Log4j en los procesos de Spark. Si utiliza Spark en el clúster o crea clústeres de EMR con parámetros de configuración personalizados y desea actualizar a la versión 6.8.0 de Amazon EMR, debe migrar al nuevo formato de clave y clasificación de configuración spark-log4j2 de Apache Log4j 2. Para obtener más información, consulte Migración de Apache Log4j 1.x a Log4j 2.x.

En la tabla siguiente, se muestra la versión de Spark incluida en la versión más reciente de la serie 5.x de Amazon EMR, junto con los componentes que Amazon EMR instala con Spark.

Para ver la versión de los componentes instalados con Spark en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de Spark para emr-5.36.2
Etiqueta de versión de Amazon EMR	Versión de Spark	Componentes instalados con Spark
emr-5.36.2	Spark 2.4.8-amzn-2	aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Historial de versiones de Presto

Creación de un clúster de Spark