Conventions de dénomination des fichiers pour les exportations vers Amazon S3 pour Amazon RDS

Les données exportées pour des tables spécifiques sont stockées au format base_prefix/files, qui utilise le préfixe de base suivant :


export_identifier/database_name/schema_name.table_name/

Par exemple :


export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Il existe deux conventions de dénomination des fichiers.

Convention actuelle :
```
batch_index/part-partition_index-random_uuid.format-based_extension
```
L’indice de lot est un numéro de séquence qui représente un lot de données lues dans la table. Si votre table ne peut pas être partitionnée en petits segments à exporter en parallèle, il y aura plusieurs indices de lot. Il en va de même si votre table est partitionnée en plusieurs tables. Il y aura plusieurs indices de lot, un pour chacune des partitions effectuées à partir de la table principale.

Si votre table peut être partitionnée en petits segments à lire en parallèle, il n’y aura que le dossier 1 d’indice de lot.

Ce dossier inclut un ou plusieurs fichiers Parquet qui contiennent les données de votre table. Le préfixe du nom du fichier Parquet est part-partition_index. Si votre table est partitionnée, plusieurs fichiers commencent par l’indice de partition 00000.

Il peut y avoir des écarts dans la séquence d’indices de partition. Cela se produit parce que chaque partition est générée à partir d’une requête basée sur une plage de données dans votre table. S’il n’y a pas de données dans la plage de cette partition, le numéro de séquence est ignoré.

Supposons, par exemple, que la colonne id soit la clé primaire de la table et que ses valeurs minimale et maximale soient 100 et 1000. 9 Lorsque nous essayons d’exporter cette table avec 9 partitions, nous la lisons avec des requêtes parallèles telles que les suivantes :
```
SELECT * FROM table WHERE id <= 100 AND id < 200
SELECT * FROM table WHERE id <= 200 AND id < 300
```
Cela devrait générer 9 fichiers, allant de part-00000-random_uuid.gz.parquet à part-00008-random_uuid.gz.parquet. Toutefois, s’il n’existe aucune ligne dont les identifiants sont compris entre 200 et 350, l’une des partitions terminées est vide. Aucun fichier ne sera donc créé pour elle. Dans l’exemple précédent, part-00001-random_uuid.gz.parquet n’est pas créé.

Ancienne convention :


part-partition_index-random_uuid.format-based_extension

Elle est identique à la convention actuelle, mais sans le préfixe batch_index, par exemple :


part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet
part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet
part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

La convention de dénomination de fichiers est sujette à modification. Par conséquent, lors de la lecture des tables cibles, nous vous conseillons de lire tout ce qui se trouve à l’intérieur du préfixe de base de la table.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Dépannage des erreurs d’autorisations PostgreSQL

Conversion des données