Membaca objek S3 yang diarsipkan dengan kelas penyimpanan Standar

Menggunakan AWS Glue

Data yang diturunkan dari MySQL ke Amazon S3 mempertahankan kekakuan struktural dan konsistensi yang sama yang khas dari sistem manajemen basis data relasional (RDBMS).

AWS Glue Crawler merayapi objek S3, menyimpulkan tipe data, dan membuat metadata tabel sebagai DDL tabel eksternal. Saat mengonfigurasi tugas crawler, gunakan Amazon S3 sebagai sumber, dan tentukan lokasi awalan S3 tempat semua file data dibuat. Dalam konfigurasi, sertakan yang berikut ini:

Opsi crawler run
Preferensi awalan tabel opsional
Target database untuk membuat tabel
Peran IAM dengan izin yang diperlukan

Setelah Anda menjalankan tugas, pekerjaan akan memindai data untuk menyimpulkan skema dan menyimpannya di AWS Glue Data Catalog sebagai tabel AWS Glue. Tabel AWS Glue pada dasarnya adalah tabel eksternal yang dapat ditanyakan dengan pernyataan SQL seperti tabel database normal menggunakan layanan analitis seperti Amazon Athena, Amazon Redshift Spectrum, dan Apache Hive di Amazon EMR. Untuk informasi selengkapnya tentang crawler, lihat dokumentasi AWS Glue.

Untuk file.csv dengan header kolom yang ditentukan, nama kolom tabel yang dihasilkan akan mencerminkan nama bidang yang sama. Tipe data disimpulkan berdasarkan nilai-nilai dalam objek data.

Untuk file Parket, skema dipertahankan dalam data itu sendiri dan tabel yang dihasilkan akan mencerminkan nama bidang dan tipe data yang sama.

Atau, Anda dapat menjalankan DDL secara manual di Athena untuk membuat definisi tabel dengan nama kolom dan tipe data yang diperlukan. Ini menciptakan definisi tabel dalam Katalog Data. Untuk informasi selengkapnya tentang membuat tabel Athena, lihat dokumentasi Amazon Athena.

Catatan: Jika baris header hilang dari file CSV, crawler membuat nama bidang sebagai generik c_0, c_1, c_2,...

Menggunakan Amazon S3 Pilih

Anda dapat menggunakan Amazon S3 Select untuk membaca objek S3 secara terprogram dengan menggunakan ekspresi SQL. Operasi API dapat dipanggil dengan menggunakan select-object-content perintah AWS CLI atau dengan menggunakan SDK seperti Boto3 dan menjalankan operasi dari Python. select_object_content

Operasi API mendukung pernyataan SQL sebagai parameter dan hanya dapat membaca file jenis JSON dan Parquet. Output dapat dialihkan sebagai file output.

Operasi ini dipanggil untuk setiap objek S3. Untuk beberapa file, jalankan operasi secara rekursif.

Untuk informasi selengkapnya tentang menjalankan operasi dengan menggunakan AWS CLI, lihat dokumentasi AWS CLI. Untuk informasi selengkapnya tentang menjalankan S3 Select dengan menggunakan Python SDK Boto3, lihat dokumentasi Boto3.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengakses data yang diarsipkan

Kelas penyimpanan gletser S3