Dateibenennungskonventionen für Exporte nach Amazon S3 für Amazon RDS - Amazon Relational Database Service

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dateibenennungskonventionen für Exporte nach Amazon S3 für Amazon RDS

Exportierte Daten für bestimmte Tabellen werden im Format base_prefix/files gespeichert, wobei das Basispräfix folgendes ist:

export_identifier/database_name/schema_name.table_name/

Zum Beispiel:

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Es gibt zwei Konventionen für die Benennung von Dateien.

  • Aktuelle Konvention:

    batch_index/part-partition_index-random_uuid.format-based_extension

    Der Batch-Index ist eine Sequenznummer, die einen aus der Tabelle gelesenen Datenstapel darstellt. Wenn wir Ihre Tabelle nicht in kleine Datenblöcke aufteilen können, die parallel exportiert werden können, gibt es mehrere Batch-Indizes. Das Gleiche passiert bei einer Partitionierung Ihrer Tabelle in mehrere Tabellen. Es gibt mehrere Batch-Indizes, einen für jede Tabellenpartition Ihrer Haupttabelle.

    Wenn wir Ihre Tabelle in kleine Datenblöcke aufteilen können, die parallel gelesen werden, gibt es nur den Batch-Index-Ordner 1.

    Im Batch-Index-Ordner befinden sich eine oder mehrere Parquet-Dateien, die die Daten Ihrer Tabelle enthalten. Das Präfix des Parquet-Dateinamens ist part-partition_index. Wenn Ihre Tabelle partitioniert ist, gibt es mehrere Dateien, die mit dem Partitionsindex 00000 beginnen.

    Es kann Lücken in der Reihenfolge des Partitionsindex geben. Dies liegt daran, dass jede Partition mit einer Bereichsabfrage aus Ihrer Tabelle abgerufen wird. Wenn sich im Bereich dieser Partition keine Daten befinden, wird diese Sequenznummer übersprungen.

    Angenommen, die id-Spalte ist der Primärschlüssel der Tabelle und deren Minimal- und Maximalwerte sind 100 und 1000. Wenn wir versuchen, diese Tabelle mit 9 Partitionen zu exportieren, lesen wir sie mit parallelen Abfragen wie den folgenden:

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Dies sollte 9 Dateien von part-00000-random_uuid.gz.parquet bis part-00008-random_uuid.gz.parquet generieren. Wenn es jedoch keine Zeilen mit IDs zwischen 200 und 350 gibt, ist eine der abgeschlossenen Partitionen leer und es wird keine Datei für diese erstellt. Im vorherigen Beispiel wurde part-00001-random_uuid.gz.parquet nicht erstellt.

  • Ältere Konvention:

    part-partition_index-random_uuid.format-based_extension

    Diese entspricht der aktuellen Konvention, allerdings ohne das batch_index-Präfix, zum Beispiel:

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

Die Namenskonvention für Dateien kann geändert werden. Daher empfehlen wir beim Lesen von Zieltabellen, dass Sie alles innerhalb des Basispräfixes für die Tabelle lesen.