

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengakses data yang diarsipkan di Amazon S3
<a name="accessing-archived-data-on-s3"></a>

Amazon S3 menyediakan sejumlah alat untuk membaca konten data. Namun, tergantung pada kelas penyimpanan, beberapa langkah preprocessing mungkin diperlukan. Bagian ini mencakup yang berikut:
+ Membaca objek S3 yang diarsipkan dengan kelas penyimpanan Standar dengan menggunakan AWS Glue
+ Membaca objek S3 yang diarsipkan dengan kelas penyimpanan S3 Glacier dengan menggunakan Operasi Batch S3
+ Praktik terbaik

# Membaca objek S3 yang diarsipkan dengan kelas penyimpanan Standar
<a name="read-s3-standard-storage-class"></a>

**Menggunakan AWS Glue**

Data yang diturunkan dari MySQL ke Amazon S3 mempertahankan kekakuan struktural dan konsistensi yang sama yang khas dari sistem manajemen basis data relasional (RDBMS).

[AWS Glue Crawler](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html) merayapi objek S3, menyimpulkan tipe data, dan membuat metadata tabel sebagai DDL tabel eksternal. Saat mengonfigurasi tugas crawler, gunakan Amazon S3 sebagai sumber, dan tentukan lokasi awalan S3 tempat semua file data dibuat. Dalam konfigurasi, sertakan yang berikut ini:
+ Opsi crawler run
+ Preferensi awalan tabel opsional
+ Target database untuk membuat tabel
+ Peran IAM dengan izin yang diperlukan

[Setelah Anda menjalankan tugas, pekerjaan akan memindai data untuk menyimpulkan skema dan menyimpannya di AWS Glue [Data Catalog sebagai tabel AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html).](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html) [Tabel AWS Glue pada dasarnya adalah tabel eksternal yang dapat ditanyakan dengan pernyataan SQL seperti tabel database normal menggunakan layanan analitis seperti [Amazon Athena, Amazon](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)[Redshift Spectrum, dan Apache Hive di Amazon](https://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html) EMR.](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) Untuk informasi selengkapnya tentang crawler, lihat [dokumentasi AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html).

Untuk file.csv dengan header kolom yang ditentukan, nama kolom tabel yang dihasilkan akan mencerminkan nama bidang yang sama. Tipe data disimpulkan berdasarkan nilai-nilai dalam objek data.

Untuk file Parket, skema dipertahankan dalam data itu sendiri dan tabel yang dihasilkan akan mencerminkan nama bidang dan tipe data yang sama.

Atau, Anda dapat menjalankan DDL secara manual di Athena untuk membuat definisi tabel dengan nama kolom dan tipe data yang diperlukan. Ini menciptakan definisi tabel dalam Katalog Data. Untuk informasi selengkapnya tentang membuat tabel Athena, lihat dokumentasi [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/creating-tables.html).

**Catatan:** Jika baris header hilang dari file CSV, crawler membuat nama bidang sebagai generik c\$10, c\$11, c\$12,...

**Menggunakan Amazon S3 Pilih**

Anda dapat menggunakan Amazon S3 Select untuk membaca objek S3 secara terprogram dengan menggunakan ekspresi SQL. Operasi API dapat dipanggil dengan menggunakan `select-object-content` perintah AWS CLI atau dengan menggunakan SDK seperti Boto3 dan menjalankan operasi dari Python. `select_object_content`

Operasi API mendukung pernyataan SQL sebagai parameter dan hanya dapat membaca file jenis JSON dan Parquet. Output dapat dialihkan sebagai file output.

Operasi ini dipanggil untuk setiap objek S3. Untuk beberapa file, jalankan operasi secara rekursif.

Untuk informasi selengkapnya tentang menjalankan operasi dengan menggunakan AWS CLI, lihat dokumentasi AWS [CLI](https://docs.aws.amazon.com/cli/latest/reference/s3api/select-object-content.html). [Untuk informasi selengkapnya tentang menjalankan S3 Select dengan menggunakan Python SDK Boto3, lihat dokumentasi Boto3.](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html#S3.Client.select_object_content)

# Membaca objek S3 yang diarsipkan dengan kelas penyimpanan S3 Glacier
<a name="read-s3-glacier-storage-class"></a>

Kelas Amazon S3 Glacier adalah kelas penyimpanan khusus dengan harga murah tetapi waktu pengambilan yang tinggi. Tidak seperti objek Standar S3, objek S3 Glacier tidak dapat dibaca sebagai tabel AWS Glue. Untuk membuat data tersedia untuk kueri analitis atau pelaporan, pertama-tama Anda memulihkan objek S3 Glacier. Restorasi adalah proses asinkron yang terjadi seiring waktu dan memiliki periode retensi. Setelah objek dipulihkan, mereka dapat disalin ke lokasi yang berbeda sebagai objek Standar S3. Di luar periode retensi, objek yang dipulihkan bertransisi kembali ke Amazon S3 Glacier.

**Menggunakan Operasi Batch S3**

Operasi Batch S3 memungkinkan operasi batch skala besar di Amazon S3 dalam urutan miliaran objek yang mengandung exabyte data. Amazon S3 melacak kemajuan, mengirim pemberitahuan, dan menyimpan laporan penyelesaian terperinci dari semua tindakan, menyediakan pengalaman yang sepenuhnya terkelola, dapat diaudit, dan nirserver.

Operasi Batch S3 mendukung operasi [Restore](https://docs.aws.amazon.com/AmazonS3/latest/userguide/batch-ops-initiate-restore-object.html), yang memulai pemulihan objek S3 untuk tingkatan penyimpanan berikut:
+ Objek yang diarsipkan di kelas penyimpanan S3 Glacier Flexible Retrieval atau S3 Glacier Deep Archive
+ Objek yang diarsipkan melalui kelas penyimpanan S3 Intelligent-Tiering di tingkat Archive Access atau Deep Archive Access

Operasi batch dapat dipanggil baik secara terprogram maupun di konsol Amazon S3. Untuk masukan, diperlukan file manifes.csv yang berisi objek daftar untuk dipulihkan.

Anda dapat menggunakan laporan [Inventaris Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-inventory.html) sebagai masukan untuk pekerjaan batch. Laporan inventaris dikonfigurasi untuk bucket dan dapat dibatasi untuk objek di bawah awalan tertentu. Ini adalah laporan otomatis dan dihasilkan baik mingguan atau harian dalam format CSV, ORC, atau Parket.

Untuk informasi selengkapnya tentang mengonfigurasi laporan inventaris, lihat dokumentasi [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/configure-inventory.html#configure-inventory-console). Untuk informasi tentang penggunaan Boto3 untuk membuat pekerjaan Operasi Batch S3, lihat dokumentasi Boto3[.](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3control.html#S3Control.Client.create_job)

# Praktik terbaik
<a name="best-practices"></a>

Kami merekomendasikan praktik terbaik berikut untuk mengakses data yang diarsipkan:
+ Untuk kumpulan data arsip yang sangat besar, kami sarankan untuk membuat tabel AWS Glue di atas data sehingga dapat dibaca dengan menggunakan mesin kueri seperti Athena dan Amazon Redshift. Baik Athena dan Amazon Redshift menyediakan penskalaan horizontal kinerja kueri. Mereka juga menggunakan pay-per-query model, yang hemat biaya dalam skenario kueri satu kali. Selain itu, Amazon Redshift memiliki mesin Advanced Query Accelerator (AQUA) di bawah kap, yang mempercepat kinerja baca tanpa biaya tambahan.
+ Data yang diarsipkan yang diturunkan secara teratur di Amazon S3 tidak boleh disimpan sebagai tempat pembuangan tumpukan. Sebaliknya, itu harus disimpan sebagai partisi baru. Partisi tanggal akan memisahkan data menjadi dimensi tanggal (misalnya,`year=<value>/month=<value>/day=<value>`). Ini sangat bermanfaat dalam dua situasi:
  + Jika tabel AWS Glue dibuat oleh crawler AWS Glue, partisi ini bertindak sebagai kolom semu. Ini meningkatkan kinerja baca dengan membatasi data yang dipindai ke partisi dalam kueri rentang.
  + Ini membantu dalam operasi restorasi Gletser S3 saat Anda memulihkan hanya sebagian objek sebagai Standar S3.
+ Crawler AWS Glue menunjukkan nilai yang luar biasa saat data yang diarsipkan yang disimpan di Amazon S3 dipartisi secara fisik. Setiap kali data dimatikan sebagai partisi awalan baru, crawler hanya memindai partisi baru dan memperbarui metadata untuk partisi itu. Jika skema tabel berubah, perubahan tersebut akan ditangkap dalam metadata tingkat partisi.