Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dateibenennungskonventionen für Exporte nach Amazon S3 für Amazon RDS
Exportierte Daten für bestimmte Tabellen werden im Format gespeichert, wobei das Basispräfix folgendes ist:base_prefix/files
export_identifier/database_name/schema_name.table_name/
Zum Beispiel:
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
Es gibt zwei Konventionen für die Benennung von Dateien.
-
Aktuelle Konvention:
batch_index/part-partition_index-random_uuid.format-based_extensionDer Batch-Index ist eine Sequenznummer, die einen aus der Tabelle gelesenen Datenstapel darstellt. Wenn wir Ihre Tabelle nicht in kleine Datenblöcke aufteilen können, die parallel exportiert werden können, gibt es mehrere Batch-Indizes. Das Gleiche passiert bei einer Partitionierung Ihrer Tabelle in mehrere Tabellen. Es gibt mehrere Batch-Indizes, einen für jede Tabellenpartition Ihrer Haupttabelle.
Wenn wir Ihre Tabelle in kleine Datenblöcke aufteilen können, die parallel gelesen werden, gibt es nur den Batch-Index-Ordner
1.Im Batch-Index-Ordner befinden sich eine oder mehrere Parquet-Dateien, die die Daten Ihrer Tabelle enthalten. Das Präfix des Parquet-Dateinamens ist
part-. Wenn Ihre Tabelle partitioniert ist, gibt es mehrere Dateien, die mit dem Partitionsindexpartition_index00000beginnen.Es kann Lücken in der Reihenfolge des Partitionsindex geben. Dies liegt daran, dass jede Partition mit einer Bereichsabfrage aus Ihrer Tabelle abgerufen wird. Wenn sich im Bereich dieser Partition keine Daten befinden, wird diese Sequenznummer übersprungen.
Angenommen, die
id-Spalte ist der Primärschlüssel der Tabelle und deren Minimal- und Maximalwerte sind100und1000. Wenn wir versuchen, diese Tabelle mit 9 Partitionen zu exportieren, lesen wir sie mit parallelen Abfragen wie den folgenden:SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300Dies sollte 9 Dateien von
part-00000-bisrandom_uuid.gz.parquetpart-00008-generieren. Wenn es jedoch keine Zeilen mit IDs zwischenrandom_uuid.gz.parquet200und350gibt, ist eine der abgeschlossenen Partitionen leer und es wird keine Datei für diese erstellt. Im vorherigen Beispiel wurdepart-00001-nicht erstellt.random_uuid.gz.parquet -
Ältere Konvention:
part-partition_index-random_uuid.format-based_extensionDiese entspricht der aktuellen Konvention, allerdings ohne das
-Präfix, zum Beispiel:batch_indexpart-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
Die Namenskonvention für Dateien kann geändert werden. Daher empfehlen wir beim Lesen von Zieltabellen, dass Sie alles innerhalb des Basispräfixes für die Tabelle lesen.