Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Convenzioni di denominazione dei file per le esportazioni verso Amazon S3 per Amazon RDS
I dati esportati per tabelle specifiche vengono memorizzati nel formato , dove il prefisso di base è il seguente:base_prefix/files
export_identifier/database_name/schema_name.table_name/
Ad esempio:
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
Esistono due convenzioni di denominazione per i file.
-
Convenzione attuale:
batch_index/part-partition_index-random_uuid.format-based_extensionL'indice batch è un numero di sequenza che rappresenta un batch di dati letti dalla tabella. Se non riusciamo a partizionare la tabella in piccoli blocchi da esportare in parallelo, ci saranno più indici batch. La stessa cosa accade se la tabella è partizionata in più tabelle. Ci saranno più indici batch, uno per ciascuna delle partizioni di tabella della tabella principale.
Se riusciamo a partizionare la tabella in piccoli blocchi da leggere in parallelo, ci sarà solo la cartella batch index.
1All'interno della cartella dell'indice batch, ci sono uno o più file Parquet che contengono i dati della tabella. Il prefisso del nome del file Parquet è.
part-Se la tabella è partizionata, ci saranno più file che iniziano con l'indice delle partizioni.partition_index00000Possono esserci delle lacune nella sequenza dell'indice delle partizioni. Ciò accade perché ogni partizione è ottenuta da una query a intervalli nella tabella. Se non ci sono dati nell'intervallo di quella partizione, quel numero di sequenza viene ignorato.
Ad esempio, supponiamo che la
idcolonna sia la chiave primaria della tabella e che i suoi valori minimo e massimo siano e.1001000Quando proviamo a esportare questa tabella con nove partizioni, la leggiamo con query parallele come le seguenti:SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300Questo dovrebbe generare nove file, da a
part-00000-.random_uuid.gz.parquetpart-00008-Tuttavia, se non ci sono righe IDs comprese trarandom_uuid.gz.parquet200e350, una delle partizioni completate è vuota e non viene creato alcun file per essa. Nell'esempio precedente,part-00001-non viene creato.random_uuid.gz.parquet -
Convention precedente:
part-partition_index-random_uuid.format-based_extensionÈ la stessa della convenzione attuale, ma senza il
prefisso, ad esempio:batch_indexpart-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
La convenzione di denominazione file è soggetta a modifiche. Pertanto, quando usi le tabelle di destinazione ti consigliamo di leggere tutto quanto riportato all'interno del prefisso di base della tabella.