Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Praktik terbaik
Kami merekomendasikan praktik terbaik berikut untuk mengakses data yang diarsipkan:
-
Untuk kumpulan data arsip yang sangat besar, kami sarankan untuk membuat tabel AWS Glue di atas data sehingga dapat dibaca dengan menggunakan mesin kueri seperti Athena dan Amazon Redshift. Baik Athena dan Amazon Redshift menyediakan penskalaan horizontal kinerja kueri. Mereka juga menggunakan pay-per-query model, yang hemat biaya dalam skenario kueri satu kali. Selain itu, Amazon Redshift memiliki mesin Advanced Query Accelerator (AQUA) di bawah kap, yang mempercepat kinerja baca tanpa biaya tambahan.
-
Data yang diarsipkan yang diturunkan secara teratur di Amazon S3 tidak boleh disimpan sebagai tempat pembuangan tumpukan. Sebaliknya, itu harus disimpan sebagai partisi baru. Partisi tanggal akan memisahkan data menjadi dimensi tanggal (misalnya,
year=<value>/month=<value>/day=<value>). Ini sangat bermanfaat dalam dua situasi:-
Jika tabel AWS Glue dibuat oleh crawler AWS Glue, partisi ini bertindak sebagai kolom semu. Ini meningkatkan kinerja baca dengan membatasi data yang dipindai ke partisi dalam kueri rentang.
-
Ini membantu dalam operasi restorasi Gletser S3 saat Anda memulihkan hanya sebagian objek sebagai Standar S3.
-
-
Crawler AWS Glue menunjukkan nilai yang luar biasa saat data yang diarsipkan yang disimpan di Amazon S3 dipartisi secara fisik. Setiap kali data dimatikan sebagai partisi awalan baru, crawler hanya memindai partisi baru dan memperbarui metadata untuk partisi itu. Jika skema tabel berubah, perubahan tersebut akan ditangkap dalam metadata tingkat partisi.