Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Lokalisieren Ihrer Bestandsliste
Wenn eine Bestandsliste veröffentlicht wird, werden die Manifestdateien am folgenden Standort im Ziel-Bucket veröffentlicht.
destination-prefix//amzn-s3-demo-source-bucketconfig-ID/YYYY-MM-DDTHH-MMZ/manifest.jsondestination-prefix//amzn-s3-demo-source-bucketconfig-ID/YYYY-MM-DDTHH-MMZ/manifest.checksumdestination-prefix//amzn-s3-demo-source-bucketconfig-ID/hive/dt=YYYY-MM-DD-HH-MM/symlink.txt
-
ist das Präfix des Objektschlüsselnamens, das optional in der Bestandskonfiguration festgelegt wird. Sie können dieses Präfix verwenden, um alle Bestandslisten-Dateien an einem gemeinsamen Standort im Ziel-Bucket zu gruppieren.destination-prefix -
ist der Quell-Bucket, für den die Bestandsliste erstellt wird. Der Quell-Bucket-Name wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte von mehreren Quell-Buckets an denselben Ziel-Bucket gesendet werden.amzn-s3-demo-source-bucket -
wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte vom selben Quell-Bucket an denselben Ziel-Bucket gesendet werden. Dieconfig-IDkommt aus der Bestandsbericht-Konfiguration und ist der Name des Berichts, der bei der Einrichtung festgelegt wurde.config-ID -
ist der Zeitstempel, der sich aus der Startzeit und dem Datum zusammensetzt, an dem die Bestandsberichtserstellung mit dem Scannen des Buckets beginnt, z. B.YYYY-MM-DDTHH-MMZ2016-11-06T21-32Z. -
manifest.jsonist die Manifestdatei. -
manifest.checksumist der MD5 Hash des Inhalts dermanifest.jsonDatei. -
symlink.txtist die mit Apache Hive kompatible Manifest-Datei.
Die Bestandslisten werden täglich oder wöchentlich am folgenden Standort im Ziel-Bucket veröffentlicht.
destination-prefix//amzn-s3-demo-source-bucketconfig-ID/data/example-file-name.csv.gz...destination-prefix//amzn-s3-demo-source-bucketconfig-ID/data/example-file-name-1.csv.gz
-
ist das Präfix des Objektschlüsselnamens, das optional in der Bestandskonfiguration festgelegt wird. Es kann verwendet werden, um alle Bestandslisten-Dateien an einem gemeinsamen Standort innerhalb des Ziel-Buckets zu gruppieren.destination-prefix -
ist der Quell-Bucket, für den die Bestandsliste erstellt wird. Der Quell-Bucket-Name wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte von mehreren Quell-Buckets an denselben Ziel-Bucket gesendet werden.amzn-s3-demo-source-bucket -
example-file-name.csv.gzist eine der CSV-Bestandsdateien. ORC-Bestandsnamen enden mit der Dateinamenserweiterung.orcund Parquet-Bestandsnamen enden mit der Dateinamenserweiterung.parquet.
Bestandsmanifest
Die Manifest-Dateien manifest.json und symlink.txt beschreiben, wo sich die Bestandsdateien befinden. Wenn eine neue Bestandsliste geliefert wird, wird sie durch eine neue Reihe von Manifestdateien begleitet. Diese Dateien könnten sich gegenseitig überschreiben. In versionierungsfähigen Buckets erstellt Amazon S3 neue Versionen der Manifestdateien.
Jedes in der manifest.json-Datei enthaltene Manifest bietet Metadaten und andere grundlegende Informationen zu einem Bestand. Diese Informationen beinhalten Folgendes:
-
Name des Quell-Buckets
-
Name des Ziel-Buckets
-
Bestandsversion
-
Erstellungszeitstempel im Epochen-Datumsformat, der aus der Startzeit und dem Datum besteht, an dem die Bestandberichtserstellung beginnt, den Bucket zu scannen
-
Format und Schema der Bestandsdateien
-
Liste der Bestandsdateien, die im Ziel-Bucket enthalten sind
Immer wenn eine manifest.json Datei geschrieben wird, wird sie von einer manifest.checksum Datei begleitet, die den MD5 Hash des manifest.json Dateiinhalts darstellt.
Beispiel Bestandsmanifest in einer manifest.json-Datei
Die folgenden Beispiele zeigen ein Bestandsmanifest in einer manifest.json-Datei für CSV-, ORC- und Parquet-formatierte Bestände.
Die symlink.txt-Datei ist eine mit Apache Hive kompatible Manifest-Datei, mit der Bestandsdateien und die zugehörigen Datendateien automatisch entdecken kann. Das Hive-kompatible Manifest funktioniert mit den Hive-kompatiblen Services Athena und Amazon Redshift Spectrum. Außerdem funktioniert dies mit Hive-kompatiblen Anwendungen, einschließlich Presto
Wichtig
Die mit Apache Hive kompatible Manifest-Datei symlink.txt funktioniert derzeit nicht mit AWS Glue.
Das Lesen der Datei symlink.txt mit Apache Hive