Utilizzo del protocollo di commit ottimizzato per S3 EMRFS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo del protocollo di commit ottimizzato per S3 EMRFS

Il protocollo di commit ottimizzato per EMRFS S3 è un'FileCommitProtocolimplementazione alternativa ottimizzata per scrivere file con sovrascrittura dinamica delle partizioni Spark su Amazon S3 quando si utilizza EMRFS. Il protocollo migliora le prestazioni delle applicazioni evitando le operazioni di ridenominazione in Amazon S3 durante la fase di commit del processo di sovrascrittura dinamica delle partizioni di Spark.

Tieni presente che la Utilizzare il committer ottimizzato S3 EMRFS migliora le prestazioni anche evitando le operazioni di ridenominazione. Tuttavia, non funziona per i casi di sovrascrittura dinamica delle partizioni, mentre i miglioramenti del protocollo commit riguardano solo i casi di sovrascrittura dinamica delle partizioni.

Il protocollo di commit è disponibile in Amazon EMR rilascio 5.30.0 e successivi ed è abilitato per impostazione predefinita in Amazon EMR rilascio 6.2.0 e successivi. Amazon EMR ha aggiunto un miglioramento del parallelismo a partire dal rilascio 5.31.0. Il protocollo viene utilizzato per i job Spark che utilizzano Spark o Datasets. DataFrames Esistono circostanze in cui il protocollo di commit non viene utilizzato. Per ulteriori informazioni, consulta Requisiti per il protocollo di commit ottimizzato per S3 EMRFS.