Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Lokalisieren Ihrer Bestandsliste
Wenn eine Bestandsliste veröffentlicht wird, werden die Manifestdateien am folgenden Standort im Ziel-Bucket veröffentlicht.
destination-prefix
//
amzn-s3-demo-source-bucket
config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.jsondestination-prefix
//
amzn-s3-demo-source-bucket
config-ID
/YYYY-MM-DDTHH-MMZ
/manifest.checksumdestination-prefix
//
amzn-s3-demo-source-bucket
config-ID
/hive/dt=YYYY-MM-DD-HH-MM
/symlink.txt
-
ist das Präfix des Objektschlüsselnamens, das optional in der Bestandskonfiguration festgelegt wird. Sie können dieses Präfix verwenden, um alle Bestandslisten-Dateien an einem gemeinsamen Standort im Ziel-Bucket zu gruppieren.destination-prefix
-
ist der Quell-Bucket, für den die Bestandsliste erstellt wird. Der Quell-Bucket-Name wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte von mehreren Quell-Buckets an denselben Ziel-Bucket gesendet werden.amzn-s3-demo-source-bucket
-
wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte vom selben Quell-Bucket an denselben Ziel-Bucket gesendet werden. Dieconfig-ID
kommt aus der Bestandsbericht-Konfiguration und ist der Name des Berichts, der bei der Einrichtung festgelegt wurde.config-ID
-
ist der Zeitstempel, der sich aus der Startzeit und dem Datum zusammensetzt, an dem die Bestandsberichtserstellung mit dem Scannen des Buckets beginnt, z. B.YYYY-MM-DDTHH-MMZ
2016-11-06T21-32Z
. -
manifest.json
ist die Manifestdatei. -
manifest.checksum
ist der MD5 Hash des Inhalts dermanifest.json
Datei. -
symlink.txt
ist die mit Apache Hive kompatible Manifest-Datei.
Die Bestandslisten werden täglich oder wöchentlich am folgenden Standort im Ziel-Bucket veröffentlicht.
destination-prefix
//
amzn-s3-demo-source-bucket
config-ID
/data/example-file-name.csv.gz
...destination-prefix
//
amzn-s3-demo-source-bucket
config-ID
/data/example-file-name-1.csv.gz
-
ist das Präfix des Objektschlüsselnamens, das optional in der Bestandskonfiguration festgelegt wird. Es kann verwendet werden, um alle Bestandslisten-Dateien an einem gemeinsamen Standort innerhalb des Ziel-Buckets zu gruppieren.destination-prefix
-
ist der Quell-Bucket, für den die Bestandsliste erstellt wird. Der Quell-Bucket-Name wird hinzugefügt, um Kollisionen zu vermeiden, wenn mehrere Bestandsberichte von mehreren Quell-Buckets an denselben Ziel-Bucket gesendet werden.amzn-s3-demo-source-bucket
-
example-file-name
.csv.gz
ist eine der CSV-Bestandsdateien. ORC-Bestandsnamen enden mit der Dateinamenserweiterung.orc
und Parquet-Bestandsnamen enden mit der Dateinamenserweiterung.parquet
.
Bestandsmanifest
Die Manifest-Dateien manifest.json
und symlink.txt
beschreiben, wo sich die Bestandsdateien befinden. Wenn eine neue Bestandsliste geliefert wird, wird sie durch eine neue Reihe von Manifestdateien begleitet. Diese Dateien könnten sich gegenseitig überschreiben. In versionierungsfähigen Buckets erstellt Amazon S3 neue Versionen der Manifestdateien.
Jedes in der manifest.json
-Datei enthaltene Manifest bietet Metadaten und andere grundlegende Informationen zu einem Bestand. Diese Informationen beinhalten Folgendes:
-
Name des Quell-Buckets
-
Name des Ziel-Buckets
-
Bestandsversion
-
Erstellungszeitstempel im Epochen-Datumsformat, der aus der Startzeit und dem Datum besteht, an dem die Bestandberichtserstellung beginnt, den Bucket zu scannen
-
Format und Schema der Bestandsdateien
-
Liste der Bestandsdateien, die im Ziel-Bucket enthalten sind
Immer wenn eine manifest.json
Datei geschrieben wird, wird sie von einer manifest.checksum
Datei begleitet, die den MD5 Hash des manifest.json
Dateiinhalts darstellt.
Beispiel Bestandsmanifest in einer manifest.json
-Datei
Die folgenden Beispiele zeigen ein Bestandsmanifest in einer manifest.json
-Datei für CSV-, ORC- und Parquet-formatierte Bestände.
Die symlink.txt
-Datei ist eine mit Apache Hive kompatible Manifest-Datei, mit der Bestandsdateien und die zugehörigen Datendateien automatisch entdecken kann. Das Hive-kompatible Manifest funktioniert mit den Hive-kompatiblen Services Athena und Amazon Redshift Spectrum. Außerdem funktioniert dies mit Hive-kompatiblen Anwendungen, einschließlich Presto
Wichtig
Die mit Apache Hive kompatible Manifest-Datei symlink.txt
funktioniert derzeit nicht mit AWS Glue.
Das Lesen der Datei symlink.txt
mit Apache Hive