Conventions de dénomination des fichiers pour les exportations vers Amazon S3 pour Amazon RDS - Amazon Relational Database Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Conventions de dénomination des fichiers pour les exportations vers Amazon S3 pour Amazon RDS

Les données exportées pour des tables spécifiques sont stockées au format base_prefix/files, qui utilise le préfixe de base suivant :

export_identifier/database_name/schema_name.table_name/

Par exemple :

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Il existe deux conventions de dénomination des fichiers.

  • Convention actuelle :

    batch_index/part-partition_index-random_uuid.format-based_extension

    L'index de lot est un numéro de séquence qui représente un lot de données lues dans la table. Si nous ne parvenons pas à partitionner votre table en petits morceaux à exporter en parallèle, il y aura plusieurs index de lots. Il en va de même si votre table est partitionnée en plusieurs tables. Il y aura plusieurs index par lots, un pour chacune des partitions de table de votre table principale.

    Si nous parvenons à partitionner votre table en petits morceaux à lire en parallèle, il n'y aura que le 1 dossier d'index par lots.

    Dans le dossier d'index par lots, un ou plusieurs fichiers Parquet contiennent les données de votre table. Le préfixe du nom du fichier Parquet estpart-partition_index. Si votre table est partitionnée, il y aura plusieurs fichiers en commençant par l'index 00000 de partition.

    Il peut y avoir des lacunes dans la séquence d'index de partition. Cela se produit parce que chaque partition est obtenue à partir d'une requête à distance dans votre table. S'il n'y a aucune donnée dans la plage de cette partition, le numéro de séquence est ignoré.

    Supposons, par exemple, que la id colonne soit la clé primaire de la table et que ses valeurs minimale et maximale soient 100 et1000. Lorsque nous essayons d'exporter cette table avec neuf partitions, nous la lisons avec des requêtes parallèles telles que les suivantes :

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Cela devrait générer neuf fichiers, de part-00000-random_uuid.gz.parquet àpart-00008-random_uuid.gz.parquet. Toutefois, s'il n'y a aucune ligne IDs entre 200 et350, l'une des partitions terminées est vide et aucun fichier n'est créé pour elle. Dans l'exemple précédent, part-00001-random_uuid.gz.parquet n'est pas créé.

  • Ancienne convention :

    part-partition_index-random_uuid.format-based_extension

    C'est la même que la convention actuelle, mais sans le batch_index préfixe, par exemple :

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

La convention de dénomination de fichiers est sujette à modification. Par conséquent, lors de la lecture des tables cibles, nous vous conseillons de lire tout ce qui se trouve à l'intérieur du préfixe de base de la table.