Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Il committer EMRFS e i caricamenti multiparte S3-optimized
Per utilizzare il S3-optimized committer EMRFS, devi abilitare i caricamenti multiparte per Amazon EMR. I caricamenti in più parti sono abilitati per impostazione predefinita. È possibile abilitarli nuovamente, se necessario. Per ulteriori informazioni, consulta Configurazione del caricamento in più parti per Amazon S3 nella Guida alla gestione di Amazon EMR.
Il S3-optimized committer EMRFS utilizza le caratteristiche simili a quelle transazionali dei caricamenti in più parti per garantire che i file scritti dai tentativi di attività vengano visualizzati nella posizione di output del lavoro solo al momento del completamento dell'operazione. Utilizzando i caricamenti in più parti in questo modo, il committer migliora le prestazioni del task commit rispetto alla versione 2 dell'algoritmo predefinito. FileOutputCommitter Quando si utilizza il S3-optimized committer EMRFS, è necessario considerare alcune differenze fondamentali rispetto al tradizionale comportamento di caricamento in più parti:
-
I caricamenti in più parti vengono sempre eseguiti indipendentemente dalle dimensioni del file. Questo differisce dal comportamento predefinito di EMRFS, dove la proprietà
fs.s3n.multipart.uploads.split.sizecontrolla le dimensioni del file in cui vengono attivati i caricamenti in più parti. -
I caricamenti in più parti restano in stato incompleto per un periodo di tempo più lungo fino a quando avviene il commit o l'arresto dell'attività. Questo differisce dal comportamento predefinito di EMRFS dove un caricamento in più parti si competa quando l'attività termina la scrittura in un determinato file.
A causa di queste differenze, se un Executor JVM Spark si arresta in modo anomalo o viene interrotto mentre le attività sono in corso e stanno scrivendo dati in Amazon S3, i caricamenti in più parti hanno più probabilità di restare indietro. Per questo motivo, quando utilizzi il S3-optimized committer EMRFS, assicurati di seguire le migliori pratiche per la gestione dei caricamenti multiparte non riusciti. Per ulteriori informazioni, consulta le best practice per utilizzare i bucket Amazon S3 nella Guida alla gestione di Amazon EMR.