Konvensi penamaan file untuk ekspor ke Amazon S3 untuk Amazon RDS - Layanan Basis Data Relasional Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konvensi penamaan file untuk ekspor ke Amazon S3 untuk Amazon RDS

Data yang diekspor untuk tabel tertentu disimpan dalam format base_prefix/files, dengan prefiks dasar sebagai berikut:

export_identifier/database_name/schema_name.table_name/

Contohnya:

export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/

Ada dua konvensi cara penamaan file.

  • Konvensi saat ini:

    batch_index/part-partition_index-random_uuid.format-based_extension

    Indeks batch adalah nomor urut yang mewakili batch data yang dibaca dari tabel. Jika kami tidak dapat mempartisi tabel Anda menjadi bagian-bagian kecil untuk diekspor secara paralel, akan ada beberapa indeks batch. Hal yang sama akan terjadi jika tabel Anda dipartisi menjadi beberapa tabel. Beberapa indeks batch akan tersedia, dengan satu untuk setiap partisi tabel dari tabel utama Anda.

    Jika kami dapat mempartisi tabel Anda menjadi bagian-bagian kecil yang akan dibaca secara paralel, hanya akan ada folder 1 indeks batch.

    Di dalam folder indeks batch, akan ada satu atau beberapa file Parquet yang berisi data tabel Anda. Prefiks file Parket adalah part-partition_index. Jika tabel Anda dipartisi, akan ada beberapa file yang diawali dengan indeks partisi 00000.

    Mungkin ada kesenjangan dalam urutan indeks partisi. Hal ini terjadi karena setiap partisi diperoleh dari kueri dengan rentang di tabel Anda. Jika tidak ada data dalam rentang partisi tersebut, maka nomor urut itu akan dilewati.

    Misalnya, anggap kolom id adalah kunci primer tabel, dan nilai minimum dan maksimumnya adalah 100 dan 1000. Saat kami mencoba mengekspor tabel ini dengan sembilan partisi, kami membacanya dengan kueri paralel seperti berikut:

    SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300

    Partisi ini akan menghasilkan sembilan file, dari part-00000-random_uuid.gz.parquet hingga part-00008-random_uuid.gz.parquet. Namun, jika tidak ada baris dengan IDs antara 200 dan350, salah satu partisi selesai kosong, dan tidak ada file yang dibuat untuk itu. Dalam contoh sebelumnya, part-00001-random_uuid.gz.parquet tidak dibuat.

  • Konvensi yang lebih lama:

    part-partition_index-random_uuid.format-based_extension

    Konvensi ini sama seperti konvensi saat ini, tetapi tanpa prefiks batch_index, contohnya:

    part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet

Konvensi penamaan file dapat berubah sewaktu-waktu. Oleh karena itu, saat membaca tabel target, sebaiknya baca segala sesuatu di dalam prefiks dasar untuk tabel tersebut.