Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Conventions de dénomination des fichiers pour les exportations vers Amazon S3 pour Amazon RDS
Les données exportées pour des tables spécifiques sont stockées au format , qui utilise le préfixe de base suivant :base_prefix/files
export_identifier/database_name/schema_name.table_name/
Par exemple :
export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/
Il existe deux conventions de dénomination des fichiers.
-
Convention actuelle :
batch_index/part-partition_index-random_uuid.format-based_extensionL’indice de lot est un numéro de séquence qui représente un lot de données lues dans la table. Si votre table ne peut pas être partitionnée en petits segments à exporter en parallèle, il y aura plusieurs indices de lot. Il en va de même si votre table est partitionnée en plusieurs tables. Il y aura plusieurs indices de lot, un pour chacune des partitions effectuées à partir de la table principale.
Si votre table peut être partitionnée en petits segments à lire en parallèle, il n’y aura que le dossier
1d’indice de lot.Ce dossier inclut un ou plusieurs fichiers Parquet qui contiennent les données de votre table. Le préfixe du nom du fichier Parquet est
part-. Si votre table est partitionnée, plusieurs fichiers commencent par l’indice de partitionpartition_index00000.Il peut y avoir des écarts dans la séquence d’indices de partition. Cela se produit parce que chaque partition est générée à partir d’une requête basée sur une plage de données dans votre table. S’il n’y a pas de données dans la plage de cette partition, le numéro de séquence est ignoré.
Supposons, par exemple, que la colonne
idsoit la clé primaire de la table et que ses valeurs minimale et maximale soient100et1000. 9 Lorsque nous essayons d’exporter cette table avec 9 partitions, nous la lisons avec des requêtes parallèles telles que les suivantes :SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300Cela devrait générer 9 fichiers, allant de
part-00000-àrandom_uuid.gz.parquetpart-00008-. Toutefois, s’il n’existe aucune ligne dont les identifiants sont compris entrerandom_uuid.gz.parquet200et350, l’une des partitions terminées est vide. Aucun fichier ne sera donc créé pour elle. Dans l’exemple précédent,part-00001-n’est pas créé.random_uuid.gz.parquet -
Ancienne convention :
part-partition_index-random_uuid.format-based_extensionElle est identique à la convention actuelle, mais sans le préfixe
, par exemple :batch_indexpart-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet
La convention de dénomination de fichiers est sujette à modification. Par conséquent, lors de la lecture des tables cibles, nous vous conseillons de lire tout ce qui se trouve à l’intérieur du préfixe de base de la table.