Migliorare le prestazioni di Spark con Amazon S3 - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Migliorare le prestazioni di Spark con Amazon S3

Amazon EMR offre caratteristiche che aiutano a ottimizzare le prestazioni quando si usa Spark per eseguire query e leggere e scrivere i dati salvati in Amazon S3.

S3 Select può migliorare le prestazioni delle query per i file CSV e JSON in alcune applicazioni mediante il pushdown dell'elaborazione ad Amazon S3.

Il committer ottimizzato S3 EMRFS è un'alternativa alla OutputCommitterclasse, che utilizza la caratteristica di caricamento in più parti EMRFS per migliorare le prestazioni quando si scrivono i file Parquet in Amazon S3 utilizzando Spark e set di dati. DataFrames