Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dateibenennungskonventionen für Exporte nach Amazon S3 für Amazon RDS
Exportierte Daten für bestimmte Tabellen werden im Format
gespeichert, wobei das Basispräfix folgendes ist:base_prefix
/files
export_identifier
/database_name
/schema_name
.table_name
/
Zum Beispiel:
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
Es gibt zwei Konventionen für die Benennung von Dateien.
-
Aktuelle Konvention:
batch_index
/part-partition_index
-random_uuid
.format-based_extension
Der Batchindex ist eine Sequenznummer, die einen aus der Tabelle gelesenen Datenstapel darstellt. Wenn wir Ihre Tabelle nicht in kleine Teile partitionieren können, die parallel exportiert werden sollen, wird es mehrere Batch-Indizes geben. Das Gleiche passiert, wenn Ihre Tabelle in mehrere Tabellen partitioniert ist. Es wird mehrere Batch-Indizes geben, einen für jede der Tabellenpartitionen Ihrer Haupttabelle.
Wenn wir Ihre Tabelle in kleine Teile partitionieren können, die parallel gelesen werden sollen, wird es nur den
1
Batch-Index-Ordner geben.Im Batchindex-Ordner befinden sich eine oder mehrere Parquet-Dateien, die die Daten Ihrer Tabelle enthalten. Das Präfix des Parquet-Dateinamens ist
part-
. Wenn Ihre Tabelle partitioniert ist, gibt es mehrere Dateien, die mit dem Partitionsindexpartition_index
00000
beginnen.Es kann Lücken in der Reihenfolge des Partitionsindexes geben. Dies liegt daran, dass jede Partition aus einer Bereichsabfrage in Ihrer Tabelle abgerufen wird. Wenn sich im Bereich dieser Partition keine Daten befinden, wird diese Sequenznummer übersprungen.
Nehmen wir beispielsweise an, dass die
id
Spalte der Primärschlüssel der Tabelle ist und ihre Minimal- und Maximalwerte100
und1000
sind. Wenn wir versuchen, diese Tabelle mit neun Partitionen zu exportieren, lesen wir sie mit parallel Abfragen wie den folgenden:SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300
Dies sollte neun Dateien von
part-00000-
bis erzeugenrandom_uuid
.gz.parquetpart-00008-
. Wenn es jedoch keine Zeilen IDs zwischenrandom_uuid
.gz.parquet200
und gibt350
, ist eine der fertigen Partitionen leer und es wird keine Datei dafür erstellt. Im vorherigen Beispiel wurdepart-00001-
nicht erstellt.random_uuid
.gz.parquet -
Ältere Konvention:
part-
partition_index
-random_uuid
.format-based_extension
Dies entspricht der aktuellen Konvention, jedoch ohne das
Präfix, zum Beispiel:batch_index
part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
Die Namenskonvention für Dateien kann geändert werden. Daher empfehlen wir beim Lesen von Zieltabellen, dass Sie alles innerhalb des Basispräfixes für die Tabelle lesen.