Dateibenennungskonventionen für Exporte nach Amazon S3 für Amazon RDS

Exportierte Daten für bestimmte Tabellen werden im Format base_prefix/files gespeichert, wobei das Basispräfix folgendes ist:


export_identifier/database_name/schema_name.table_name/

Zum Beispiel:


export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Es gibt zwei Konventionen für die Benennung von Dateien.

Aktuelle Konvention:
```
batch_index/part-partition_index-random_uuid.format-based_extension
```
Der Batch-Index ist eine Sequenznummer, die einen aus der Tabelle gelesenen Datenstapel darstellt. Wenn wir Ihre Tabelle nicht in kleine Datenblöcke aufteilen können, die parallel exportiert werden können, gibt es mehrere Batch-Indizes. Das Gleiche passiert bei einer Partitionierung Ihrer Tabelle in mehrere Tabellen. Es gibt mehrere Batch-Indizes, einen für jede Tabellenpartition Ihrer Haupttabelle.

Wenn wir Ihre Tabelle in kleine Datenblöcke aufteilen können, die parallel gelesen werden, gibt es nur den Batch-Index-Ordner 1.

Im Batch-Index-Ordner befinden sich eine oder mehrere Parquet-Dateien, die die Daten Ihrer Tabelle enthalten. Das Präfix des Parquet-Dateinamens ist part-partition_index. Wenn Ihre Tabelle partitioniert ist, gibt es mehrere Dateien, die mit dem Partitionsindex 00000 beginnen.

Es kann Lücken in der Reihenfolge des Partitionsindex geben. Dies liegt daran, dass jede Partition mit einer Bereichsabfrage aus Ihrer Tabelle abgerufen wird. Wenn sich im Bereich dieser Partition keine Daten befinden, wird diese Sequenznummer übersprungen.

Angenommen, die id-Spalte ist der Primärschlüssel der Tabelle und deren Minimal- und Maximalwerte sind 100 und 1000. Wenn wir versuchen, diese Tabelle mit 9 Partitionen zu exportieren, lesen wir sie mit parallelen Abfragen wie den folgenden:
```
SELECT * FROM table WHERE id <= 100 AND id < 200
SELECT * FROM table WHERE id <= 200 AND id < 300
```
Dies sollte 9 Dateien von part-00000-random_uuid.gz.parquet bis part-00008-random_uuid.gz.parquet generieren. Wenn es jedoch keine Zeilen mit IDs zwischen 200 und 350 gibt, ist eine der abgeschlossenen Partitionen leer und es wird keine Datei für diese erstellt. Im vorherigen Beispiel wurde part-00001-random_uuid.gz.parquet nicht erstellt.

Ältere Konvention:


part-partition_index-random_uuid.format-based_extension

Diese entspricht der aktuellen Konvention, allerdings ohne das batch_index-Präfix, zum Beispiel:


part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet
part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet
part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

Die Namenskonvention für Dateien kann geändert werden. Daher empfehlen wir beim Lesen von Zieltabellen, dass Sie alles innerhalb des Basispräfixes für die Tabelle lesen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fehlerbehebung bei PostgreSQL-Berechtigungsfehlern

Datenkonvertierung