Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Daten aus Amazon S3 uploaden
Informationen zum Hochladen von Objekten in Amazon S3 finden Sie unter Ein Objekts zu Ihrem Bucket hinzufügen im Benutzerhandbuch zu Amazon Simple Storage Service. Weitere Informationen zur Verwendung von Amazon S3 mit Hadoop finden Sie unter http://wiki.apache. org/hadoop/AmazonS
Themen
Erstellen und Konfigurieren eines Amazon S3-Buckets
Amazon EMR verwendet das AWS SDK für Java zusammen mit Amazon S3, um Eingabedaten, Protokolldateien und Ausgabedaten zu speichern. Amazon S3 bezeichnet diese Speicherorte als Buckets. Buckets haben in Übereinstimmung mit den Amazon-S3- und DNS-Anforderungen bestimmte Einschränkungen und Bedingungen. Weitere Informationen finden Sie unter Bucket-Einschränkungen und -Limits im Benutzerhandbuch zu Amazon Simple Storage Service.
In diesem Abschnitt erfahren Sie, wie Sie Amazon S3 verwenden AWS Management Console , um Berechtigungen für einen Amazon S3 S3-Bucket zu erstellen und anschließend festzulegen. Sie können Berechtigungen für einen Amazon-S3-Bucket auch über die Amazon-S3-API oder die AWS CLI erstellen und festlegen. Sie können Curl auch zusammen mit einer Änderung verwenden, um die entsprechenden Authentifizierungsparameter für Amazon S3 zu übergeben.
Weitere Informationen finden Sie in den folgenden Ressourcen:
-
Informationen zur Bucket-Erstellung mittels Konsole finden Sie unter Erstellen eines Buckets im Amazon-S3-Benutzerhandbuch.
-
Informationen zum Erstellen und Arbeiten mit Buckets mithilfe von finden Sie unter Verwenden von S3-Befehlen auf hoher Ebene mit dem AWS Command Line Interface im Amazon S3 S3-Benutzerhandbuch. AWS CLI
-
Informationen zum Erstellen eines Buckets mithilfe eines SDK finden Sie unter Beispiele für die Erstellung eines Buckets im Benutzerhandbuch für Amazon Simple Storage Service.
-
Informationen zum Arbeiten mit Buckets über Curl finden Sie unter Amazon-S3-Authentifizierungstool für Curl
. -
Weitere Informationen zum Angeben regionsspezifischer Buckets finden Sie unter Zugreifen auf einen Bucket im Benutzerhandbuch für Amazon Simple Storage Service.
-
Informationen zum Arbeiten mit Buckets unter Verwendung von Amazon S3 Access Points finden Sie unter Verwenden eines Alias im Bucket-Stil für Ihren Zugangspunkt im Amazon-S3-Benutzerhandbuch. Sie können Amazon S3 Access Points problemlos mit dem Alias von Amazon S3 Access Points anstelle des Amazon-S3-Bucket-Namens verwenden. Sie können den Alias Amazon S3 Access Point sowohl für bestehende als auch für neue Anwendungen verwenden, darunter Spark, Hive, Presto und andere.
Anmerkung
Wenn Sie für einen Bucket die Option „Protokollierung“ aktivieren, werden nur Bucket-Zugriffslogs aktiviert und nicht Amazon-EMR-Cluster-Logs.
Während der Bucket-Erstellung oder danach können Sie die entsprechenden Berechtigungen für den Zugriff auf den Bucket festlegen, abhängig von Ihrer Anwendung. Hierbei sollten Sie sich selbst (als Eigentümer) Lese- und Schreibzugriff und anderen autorisierten Benutzern Lesezugriff erteilen.
Erforderliche Amazon-S3-Buckets müssen vorhanden sein, bevor Sie einen Cluster erstellen können. Sie müssen alle erforderlichen Skripts und Daten auf Amazon S3 hochladen, auf die im Cluster verwiesen wird. In der folgenden Tabelle werden Beispiele für Speicherorte für Daten, Skripts und Protokolldateien beschrieben.
Konfigurieren von mehrteiligen Uploads für Amazon S3
Amazon EMR unterstützt den mehrteiligen Amazon S3 S3-Upload über das AWS SDK for Java. Mit dem mehrteiligen Upload können Sie ein einzelnes Objekt in mehreren Teilen hochladen. Sie können diese Objektteile unabhängig und in beliebiger Reihenfolge hochladen. Wenn die Übertragung eines Teils fehlschlägt, können Sie das Teil erneut übertragen, ohne dass dies Auswirkungen auf andere Teile hat. Nachdem alle Teile Ihres Objekts hochgeladen sind, fügt Amazon S3 diese Teile zusammen und erstellt das Objekt.
Weitere Informationen finden Sie unter Mehrteiliger Upload – Übersicht im Benutzerhandbuch zu Amazon Simple Storage Service.
Darüber hinaus stellt Amazon EMR Eigenschaften bereit, mit denen Sie die Bereinigung fehlgeschlagener mehrteiliger Uploads genauer steuern können.
In der folgenden Tabelle werden die Amazon-EMR-Konfigurationsparameter für mehrteilige Uploads beschrieben. Sie können diese mit der Konfigurationsklassifizierung core-site
konfigurieren. Weitere Informationen finden Sie unter Konfigurieren von Anwendungen in den Amazon-EMR-Versionshinweisen.
Name des Konfigurationsparameters | Standardwert | Beschreibung |
---|---|---|
fs.s3n.multipart.uploads.enabled |
true |
Dieser Boolesche Typ gibt an, ob mehrteilige Uploads aktiviert werden sollen. Wenn EMRFS konsistente Ansicht aktiviert ist, sind mehrteilige Uploads standardmäßig aktiviert. Eine Festlegung dieses Werts auf false wird ignoriert. |
fs.s3n.multipart.uploads.split.size |
134217728 |
Gibt die maximale Größe eines Teils in Byte an, bevor EMRFS einen neuen Teil-Upload startet, wenn die Funktion für mehrteilige Uploads aktiviert ist. Der Mindestwert ist Wenn die clientseitige EMRFS-Verschlüsselung und der Amazon S3 Optimized Committer deaktiviert sind, steuert dieser Wert auch die maximale Größe, die eine Datendatei erreichen kann, bis EMRFS zum Hochladen der Datei anstelle einer |
fs.s3n.ssl.enabled |
true |
Dieser Boolesche Typ gibt an, ob HTTP oder HTTPS verwendet werden soll. |
fs.s3.buckets.create.enabled |
false |
Ein boolescher Typ, der angibt, ob ein Bucket erstellt werden soll, wenn er nicht vorhanden ist. Wenn Sie dies auf false festlegen, wird eine Ausnahme für CreateBucket -Operationen ausgelöst. |
fs.s3.multipart.clean.enabled |
false |
Ein boolescher Typ, der angibt, ob unvollständige mehrteilige Uploads regelmäßig im Hintergrund bereinigt werden sollen. |
fs.s3.multipart.clean.age.threshold |
604800 |
Ein long-Typ, der das Mindestalter eines mehrteiligen Uploads in Sekunden angibt, bevor er zur Bereinigung vorgesehen wird. Die Standardeinstellung ist eine Woche. |
fs.s3.multipart.clean.jitter.max |
10000 |
Eine integer-Typ, der den maximalen Betrag für zufällige Jitter-Verzögerungen in Sekunden angibt, die der festen Verzögerung von 15 Minuten hinzugefügt werden, bevor die nächste Bereinigung geplant wird. |
So deaktivieren Sie mehrteilige Uploads
Bewährte Methoden
Nachfolgend sind die Empfehlungen für die Nutzung von Amazon-S3-Buckets mit EMR-Clustern aufgeführt.
Aktivieren von Versioning
Versioning ist eine empfohlene Konfiguration für Ihre Amazon S3-Buckets. Durch das Aktivieren von Versioning stellen Sie sicher, dass Sie auch versehentlich gelöschte oder überschriebene Daten wiederhergestellt werden können. Weitere Informationen finden Sie unter Verwenden von Versionsverwaltung im Benutzerhandbuch für Amazon Simple Storage Service.
Bereinigung mehrteiliger Uploads fehlgeschlagen
EMR-Cluster-Komponenten verwenden standardmäßig mehrteilige Uploads über das AWS SDK for Java mit Amazon S3 APIs , um Protokolldateien zu schreiben und Daten in Amazon S3 auszugeben. Informationen zum Ändern von Eigenschaften im Zusammenhang mit dieser Konfiguration über Amazon EMR finden Sie unter Konfigurieren von mehrteiligen Uploads für Amazon S3. Es kann vorkommen, dass das Hochladen einer großen Datei zu einem unvollständigen mehrteiligen Upload in Amazon S3 führt. Wenn ein mehrteiliger Upload nicht erfolgreich abgeschlossen werden kann, belegt der laufende Vorgang Ihren Bucket und es fallen Speichergebühren an. Wir empfehlen die folgenden Optionen, um eine übermäßige Dateispeicherung zu vermeiden:
-
Verwenden Sie für mit Amazon EMR verwendete Buckets eine Lebenszyklus-Konfigurationsregel in Amazon S3, um unvollständige mehrteilige Uploads drei Tage nach dem Startdatum des betreffenden Uploads zu entfernen. Mit Lebenszyklus-Konfigurationsregeln können Sie Speicherklasse und Lebensdauer von Objekten steuern. Weitere Informationen finden Sie unter Verwaltung des Objektlebenszyklus und Abbrechen unvollständiger mehrteiliger Uploads mit einer Bucket-Lebenszyklusrichtlinie.
-
Sie aktivieren das Amazon-EMR-Feature für die Bereinigung mehrteiliger Uploads, indem Sie
fs.s3.multipart.clean.enabled
auftrue
festlegen und andere Bereinigungsparameter optimieren. Diese Funktion ist bei einem hohen Volumen, einem großem Umfang und Clustern mit begrenzte Betriebszeit nützlich. In diesem Fall ist derDaysAfterIntitiation
-Parameter einer Lebenszyklus-Konfigurationsregel möglicherweise zu lang, selbst wenn er auf das Minimum eingestellt ist, was zu Spitzen im Amazon-S3-Speicher führt. Die mehrteilige Bereinigung von Amazon EMR ermöglicht eine genauere Steuerung. Weitere Informationen finden Sie unter Konfigurieren von mehrteiligen Uploads für Amazon S3.
Versionsmarkierungen verwalten
Sie sollten eine Lebenszyklus-Konfigurationsregel in Amazon S3 aktivieren, um abgelaufene Objektlöschmarkierungen für versionierte Buckets, die Sie mit Amazon EMR verwenden, zu entfernen. Beim Löschen eines Objekts in einem versionierten Bucket wird eine Löschmarkierung erstellt. Wenn anschließend alle vorherigen Versionen des Objekts ablaufen, verbleibt eine Löschmarkierung für abgelaufene Objekte im Bucket. Löschmarkierungen werden Ihnen zwar nicht berechnet, die Entfernung abgelaufener Löschmarkierungen kann jedoch die Leistung von LIST-Anfragen verbessern. Weitere Informationen finden Sie unter Lebenszykluskonfiguration für einen Bucket mit Versionsverwaltung im Benutzerhandbuch zu Amazon Simple Storage Service.
Bewährte Methoden zur Leistungssteigerung
Je nach Workloads können bestimmte Nutzungsarten von EMR-Clustern und Anwendungen in diesen Clustern zu einer hohe Anzahl von Anfragen an einen Bucket führen. Weitere Informationen finden Sie unter Erwägungen zur Anforderungsrate und Leistung im Benutzerhandbuch zu Amazon Simple Storage Service.