Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membaca objek S3 yang diarsipkan dengan kelas penyimpanan Standar
Menggunakan AWS Glue
Data yang diturunkan dari MySQL ke Amazon S3 mempertahankan kekakuan struktural dan konsistensi yang sama yang khas dari sistem manajemen basis data relasional (RDBMS).
AWS Glue Crawler merayapi objek S3, menyimpulkan tipe data, dan membuat metadata tabel sebagai DDL tabel eksternal. Saat mengonfigurasi tugas crawler, gunakan Amazon S3 sebagai sumber, dan tentukan lokasi awalan S3 tempat semua file data dibuat. Dalam konfigurasi, sertakan yang berikut ini:
-
Opsi crawler run
-
Preferensi awalan tabel opsional
-
Target database untuk membuat tabel
-
Peran IAM dengan izin yang diperlukan
Setelah Anda menjalankan tugas, pekerjaan akan memindai data untuk menyimpulkan skema dan menyimpannya di AWS Glue Data Catalog sebagai tabel AWS Glue. Tabel AWS Glue pada dasarnya adalah tabel eksternal yang dapat ditanyakan dengan pernyataan SQL seperti tabel database normal menggunakan layanan analitis seperti Amazon Athena, AmazonRedshift Spectrum, dan Apache Hive di Amazon EMR. Untuk informasi selengkapnya tentang crawler, lihat dokumentasi AWS Glue.
Untuk file.csv dengan header kolom yang ditentukan, nama kolom tabel yang dihasilkan akan mencerminkan nama bidang yang sama. Tipe data disimpulkan berdasarkan nilai-nilai dalam objek data.
Untuk file Parket, skema dipertahankan dalam data itu sendiri dan tabel yang dihasilkan akan mencerminkan nama bidang dan tipe data yang sama.
Atau, Anda dapat menjalankan DDL secara manual di Athena untuk membuat definisi tabel dengan nama kolom dan tipe data yang diperlukan. Ini menciptakan definisi tabel dalam Katalog Data. Untuk informasi selengkapnya tentang membuat tabel Athena, lihat dokumentasi Amazon Athena.
Catatan: Jika baris header hilang dari file CSV, crawler membuat nama bidang sebagai generik c_0, c_1, c_2,...
Menggunakan Amazon S3 Pilih
Anda dapat menggunakan Amazon S3 Select untuk membaca objek S3 secara terprogram dengan menggunakan ekspresi SQL. Operasi API dapat dipanggil dengan menggunakan select-object-content perintah AWS CLI atau dengan menggunakan SDK seperti Boto3 dan menjalankan operasi dari Python. select_object_content
Operasi API mendukung pernyataan SQL sebagai parameter dan hanya dapat membaca file jenis JSON dan Parquet. Output dapat dialihkan sebagai file output.
Operasi ini dipanggil untuk setiap objek S3. Untuk beberapa file, jalankan operasi secara rekursif.
Untuk informasi selengkapnya tentang menjalankan operasi dengan menggunakan AWS CLI, lihat dokumentasi AWS CLI. Untuk informasi selengkapnya tentang menjalankan S3 Select dengan menggunakan Python SDK Boto3, lihat dokumentasi Boto3.