Mejora del rendimiento de Spark con Amazon S3 - Amazon EMR

Mejora del rendimiento de Spark con Amazon S3

Amazon EMR ofrece características para ayudar a optimizar el rendimiento cuando se utiliza Spark para consultar, leer y escribir datos guardados en Amazon S3.

S3 Select puede mejorar el rendimiento de las consultas para archivos JSON y CSV en algunas aplicaciones al “delegar” el procesamiento en Amazon S3.

El confirmador optimizado para S3 de EMRFS constituye una alternativa a la clase OutputCommitter, que utiliza la característica de cargas multiparte de EMRFS para mejorar el rendimiento al escribir archivos Parquet en Amazon S3 mediante Spark, DataFrames y conjuntos de datos.