View a markdown version of this page

Der S3-optimized EMRFS-Committer und mehrteilige Uploads - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Der S3-optimized EMRFS-Committer und mehrteilige Uploads

Um den S3-optimized EMRFS-Committer verwenden zu können, müssen Sie mehrteilige Uploads für Amazon EMR aktivieren. Mehrteilige Uploads sind standardmäßig aktiviert. Sie können diese Option bei Bedarf erneut aktivieren. Weitere Informationen finden Sie unter Konfigurieren von mehrteiligen Uploads für Amazon S3 im Verwaltungshandbuch für Amazon EMR.

Der S3-optimized EMRFS-Committer nutzt die transaktionsähnlichen Merkmale von mehrteiligen Uploads, um sicherzustellen, dass Dateien, die durch Versuche von Aufgaben geschrieben wurden, beim Commit der Aufgabe nur am Ausgabespeicherort des Auftrags angezeigt werden. Durch die Verwendung von mehrteiligen Uploads auf diese Weise verbessert der Committer die Leistung des Task-Commits im Vergleich zum Standardalgorithmus Version 2. FileOutputCommitter Bei der Verwendung des S3-optimized EMRFS-Committers sind einige wichtige Unterschiede zum herkömmlichen Verhalten bei mehrteiligen Uploads zu berücksichtigen:

  • Mehrteilige Uploads werden immer ausgeführt, unabhängig von der Dateigröße. Dies unterscheidet sich vom Standardverhalten von EMRFS, bei dem die Eigenschaft fs.s3n.multipart.uploads.split.size die Dateigröße steuert, in der mehrteilige Uploads ausgelöst werden.

  • Mehrteilige Uploads verbleiben für einen längeren Zeitraum in einem Status, in dem sie nicht abgeschlossen sind, bis die Aufgabe übertragen oder abgebrochen wird. Dies unterscheidet sich von der Standard-Verhalten von EMRFS. Dort wird ein mehrteiliger Upload abgeschlossen, wenn eine Aufgabe den Schreibvorgang für eine bestimmte Datei beendet hat.

Aufgrund dieser Unterschiede vergrößert sich bei mehrteiligen Uploads die Wahrscheinlichkeit, dass unvollständige mehrteilige Uploads zurückbleiben, wenn ein Spark Executor JVM abstürzt oder zerstört wird, während Aufgaben ausgeführt oder Daten auf Amazon S3 geschrieben werden. Aus diesem Grund sollten Sie bei der Verwendung des S3-optimized EMRFS-Committers unbedingt die bewährten Methoden für den Umgang mit fehlgeschlagenen mehrteiligen Uploads beachten. Weitere Informationen finden Sie unter Bewährte Methoden für die Arbeit mit Amazon-S3-Buckets im Verwaltungshandbuch für Amazon EMR.