Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menemukan data Anda dengan tabel Metadata S3
Amazon S3 Metadata mempercepat penemuan data dengan secara otomatis menangkap metadata untuk objek di bucket tujuan umum Anda dan menyimpannya dalam tabel hanya-baca dan terkelola penuh yang dapat Anda kueri. Apache Iceberg Tabel hanya baca ini disebut tabel metadata. Saat objek ditambahkan, diperbarui, atau dihapus dari bucket tujuan umum Anda, Metadata S3 secara otomatis menyegarkan tabel metadata yang sesuai untuk mencerminkan perubahan terbaru.
Secara default, Metadata S3 menyediakan tiga jenis metadata:
-
Metadata yang ditentukan sistem, seperti waktu pembuatan objek dan kelas penyimpanan
-
Metadata kustom, seperti tag dan metadata yang ditentukan pengguna yang disertakan selama pengunggahan objek
-
Metadata peristiwa, seperti ketika objek diperbarui atau dihapus, dan Akun AWS yang membuat permintaan
Dengan S3 Metadata, Anda dapat dengan mudah menemukan, menyimpan, dan mengueri metadata untuk objek S3 Anda, sehingga Anda dapat dengan cepat menyiapkan data untuk digunakan dalam analitik bisnis, pengambilan konten, pelatihan model kecerdasan buatan dan {i>machine learning <i}(AI/ML), dan banyak lagi.
Untuk setiap {i>bucket <i}tujuan umum, Anda dapat membuat satu konfigurasi tabel metadata yang berisi dua tabel metadata pelengkap:
-
Tabel jurnal — Secara default, konfigurasi tabel metadata Anda berisi tabel jurnal, yang menangkap peristiwa yang terjadi untuk objek di bucket Anda. Tabel jurnal mencatat perubahan yang dilakukan pada data Anda hampir secara {i>real time<i}, membantu Anda mengidentifikasi data baru yang diunggah ke {i>bucket <i}Anda, melacak objek yang baru saja dihapus, memantau transisi siklus hidup, dan banyak lagi. Tabel jurnal mencatat objek baru dan pembaruan untuk objek Anda serta metadatanya (pembaruan yang memerlukan operasi
PUTatau operasiDELETE).Tabel jurnal menangkap metadata hanya untuk peristiwa perubahan (seperti unggahan, pembaruan, dan penghapusan) yang terjadi setelah Anda membuat konfigurasi tabel metadata Anda. Karena tabel ini dapat dikueri, Anda dapat mengaudit perubahan pada {i>bucket <i}Anda melalui kueri SQL sederhana.
Tabel jurnal diperlukan untuk setiap konfigurasi tabel metadata. (Dalam rilis awal S3 Metadata, tabel jurnal disebut "tabel metadata.")
Untuk informasi selengkapnya tentang data apa yang disimpan dalam tabel jurnal, lihatSkema tabel jurnal S3 Metadata.
Untuk membantu meminimalkan biaya penyimpanan, Anda dapat memilih untuk mengaktifkan kedaluwarsa catatan tabel jurnal. Untuk informasi selengkapnya, lihat Menetapkan masa kedaluwarsa catatan tabel jurnal.
-
Tabel inventaris langsung – Anda memiliki opsi untuk menambahkan tabel inventaris langsung ke konfigurasi tabel metadata Anda. Tabel inventaris langsung menyediakan inventaris sederhana dan dapat dikueri untuk semua objek serta versinya di dalam {i>bucket <i}Anda sehingga Anda dapat menentukan status terbaru data Anda.
Anda dapat menggunakan tabel inventaris langsung untuk menyederhanakan serta mempercepat alur kerja bisnis dan tugas {i>big data <i}dengan mengidentifikasi objek yang ingin Anda proses untuk berbagai beban kerja. Misalnya, Anda dapat menanyakan tabel inventaris langsung untuk menemukan semua objek yang disimpan dalam kelas penyimpanan tertentu, semua objek dengan tag tertentu, semua objek yang tidak dienkripsi dengan enkripsi sisi server menggunakan kunci AWS Key Management Service (AWS KMS) (SSE-KMS), dan banyak lagi.
Saat Anda mengaktifkan tabel inventaris langsung untuk konfigurasi tabel metadata, tabel akan melalui proses yang dikenal sebagai penimbunan ulang, di mana Amazon S3 memindai bucket tujuan umum Anda untuk mengambil metadata awal untuk semua objek yang ada di bucket. Tergantung jumlah objek dalam {i>bucket <i}Anda, proses ini mungkin memerlukan waktu beberapa menit (minimal 15 menit) hingga beberapa jam. Ketika proses pengisian ulang selesai, status tabel inventaris langsung Anda berubah dari Sedang mengisi ulang menjadi Aktif. Setelah pengisian ulang selesai, pembaruan pada objek Anda biasanya diterapkan ke tabel inventaris langsung dalam waktu satu jam.
Anda dikenakan biaya untuk mengisi kembali tabel inventaris Anda. Jika {i>bucket <i}tujuan umum Anda memiliki lebih dari satu miliar objek, Anda juga dikenakan biaya bulanan untuk tabel inventaris langsung Anda. Untuk informasi selengkapnya, lihat Harga Amazon S3
. Untuk informasi selengkapnya tentang data apa yang disimpan dalam tabel inventaris langsung, lihatSkema tabel inventaris langsung Metadata S3.
Tabel metadata Anda disimpan dalam bucket tabel S3 AWS terkelola, yang menyediakan penyimpanan yang dioptimalkan untuk data tabular. Untuk menanyakan metadata Anda, Anda dapat mengintegrasikan keranjang meja Anda dengan Amazon SageMaker Lakehouse. Integrasi ini, yang menggunakan AWS Glue Data Catalog dan AWS Lake Formation, memungkinkan layanan AWS analitik untuk secara otomatis menemukan dan mengakses data tabel Anda.
Setelah bucket meja terintegrasi dengan AWS Glue Data Catalog, Anda dapat langsung menanyakan tabel metadata Anda dengan layanan AWS analitik seperti Amazon Athena, Amazon EMR, dan Amazon Redshift. Anda juga dapat membuat dasbor interaktif dengan data kueri Anda menggunakan Amazon Quick Suite. Untuk informasi selengkapnya tentang mengintegrasikan bucket tabel S3 AWS terkelola dengan Amazon SageMaker Lakehouse, lihat. Mengintegrasikan Tabel AWS Amazon S3 dengan layanan analitik
Anda juga dapat menanyakan tabel metadata Anda denganApache Spark,Apache Trino, dan aplikasi lain yang mendukung Apache Iceberg format dengan menggunakan titik akhir AWS Glue Iceberg REST, titik akhir Amazon S3 Tables Iceberg REST, atau Katalog Tabel Amazon S3 untuk katalog klien. Apache Iceberg Untuk informasi selengkapnya tentang mengakses tabel metadata Anda, lihat. Mengakses data tabel
Untuk harga Metadata S3, lihat Harga Amazon S3.
Cara kerja tabel metadata
Tabel metadata dikelola oleh Amazon S3, dan tidak dapat dimodifikasi oleh prinsipal IAM di luar Amazon S3 itu sendiri. Namun, Anda dapat menghapus tabel metadata Anda. Akibatnya, tabel metadata bersifat hanya-baca, yang membantu memastikan bahwa tabel tersebut mencerminkan konten bucket tujuan umum Anda dengan benar.
Untuk membuat dan menyimpan metadata objek dalam tabel metadata AWS terkelola, Anda membuat konfigurasi tabel metadata untuk bucket tujuan umum Anda. Amazon S3 dirancang untuk terus memperbarui tabel metadata untuk mencerminkan perubahan terbaru pada data Anda selama konfigurasi aktif pada bucket tujuan umum.
Sebelum Anda membuat konfigurasi tabel metadata, pastikan Anda memiliki izin AWS Identity and Access Management (IAM) yang diperlukan untuk membuat dan mengelola tabel metadata. Untuk informasi selengkapnya, lihat Menyiapkan izin untuk mengonfigurasi tabel metadata.
Penyimpanan tabel metadata, organisasi, dan enkripsi
Saat Anda membuat konfigurasi tabel metadata, tabel metadata Anda disimpan dalam keranjang tabel terkelola AWS
. Semua konfigurasi tabel metadata di akun Anda dan di Wilayah yang sama disimpan dalam satu keranjang tabel AWS terkelola. Bucket tabel AWS terkelola ini diberi nama aws-s3 dan memiliki format Amazon Resource Name (ARN) berikut:
arn:aws:s3tables:region:account_id:bucket/aws-s3
Misalnya, jika ID akun Anda adalah 123456789012 dan bucket tujuan umum Anda berada di US East (Virginia N.) (us-east-1), bucket tabel AWS terkelola Anda juga dibuat di US East (Virginia N.) () us-east-1 dan memiliki ARN berikut:
arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3
Secara default, bucket tabel AWS terkelola dienkripsi dengan enkripsi sisi server menggunakan kunci terkelola Amazon S3 (SSE-S3). Setelah membuat konfigurasi metadata pertama, Anda dapat mengatur setelan enkripsi default untuk bucket tabel AWS terkelola agar menggunakan enkripsi sisi server dengan kunci AWS Key Management Service (AWS KMS) (SSE-KMS). Untuk informasi selengkapnya, lihat Enkripsi untuk bucket tabel AWS terkelola danMenentukan enkripsi sisi server dengan AWS KMS kunci (SSE-KMS) di bucket tabel.
Dalam bucket tabel AWS terkelola, tabel metadata untuk konfigurasi biasanya disimpan dalam namespace dengan format penamaan berikut:
b_general-purpose-bucket-name
catatan
-
Jika nama bucket tujuan umum Anda berisi periode apa pun, periode akan dikonversi menjadi garis bawah (
_) dalam nama namespace. -
Jika ember tujuan umum Anda dibuat sebelum 1 Maret 2018, namanya mungkin berisi huruf besar dan garis bawah, dan mungkin juga panjangnya hingga 255 karakter. Jika nama bucket Anda memiliki karakteristik ini, namespace tabel metadata Anda akan memiliki format yang berbeda. Nama bucket tujuan umum akan diawali dengan
b_, dipotong menjadi 63 karakter, dikonversi ke semua huruf kecil, dan diakhiran dengan hash.
Tabel metadata memiliki format Amazon Resource Name (ARN) berikut, yang menyertakan ID tabel tabel metadata:
arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/table-id
Misalnya, tabel metadata di Wilayah AS Timur (Virginia N.) akan memiliki ARN seperti berikut:
arn:aws:s3tables:us-east-1:111122223333:bucket/aws-s3/table/a12bc345-67d8-912e-3456-7f89123g4h56
Tabel jurnal memiliki namajournal, dan tabel inventaris langsung memiliki namainventory.
Saat membuat konfigurasi tabel metadata, Anda dapat memilih untuk mengenkripsi tabel metadata AWS terkelola dengan enkripsi sisi server menggunakan kunci () (SSE-KMS). AWS Key Management Service AWS KMS Jika Anda memilih untuk menggunakan SSE-KMS, Anda harus menyediakan kunci KMS yang dikelola pelanggan di Wilayah yang sama dengan {i>bucket <i}tujuan umum Anda. Anda dapat mengatur jenis enkripsi untuk tabel Anda hanya selama pembuatan tabel. Setelah tabel terkelola AWS dibuat, Anda tidak dapat mengubah pengaturan enkripsinya. Untuk menentukan SSE-KMS untuk tabel metadata Anda, Anda harus memiliki izin tertentu. Untuk informasi selengkapnya, lihat Izin untuk SSE-KMS.
Pengaturan enkripsi untuk tabel metadata lebih diutamakan daripada pengaturan enkripsi tingkat {i>bucket default<i}. Jika Anda tidak menentukan enkripsi untuk tabel, itu akan mewarisi pengaturan enkripsi default dari bucket.
AWS bucket tabel terkelola tidak dihitung dalam kuota Tabel S3 Anda. Untuk informasi selengkapnya tentang bekerja dengan bucket tabel AWS terkelola dan tabel AWS terkelola, lihat Bekerja dengan bucket tabel AWS terkelola.
Untuk memantau pembaruan konfigurasi tabel metadata Anda, Anda dapat menggunakannya. AWS CloudTrail Untuk informasi selengkapnya, lihat Tindakan tingkat ember Amazon S3 yang dilacak dengan logging CloudTrail .
Pemeliharaan tabel metadata dan kedaluwarsa catatan
Agar tabel metadata Anda berkinerja terbaik, Amazon S3 melakukan aktivitas pemeliharaan berkala pada tabel Anda, seperti pemadatan dan penghapusan file yang tidak direferensikan. Aktivitas pemeliharaan ini membantu meminimalkan biaya penyimpanan tabel metadata Anda dan mengoptimalkan kinerja kueri. Pemeliharaan tabel ini terjadi secara otomatis, tidak memerlukan keikutsertaan atau manajemen berkelanjutan oleh Anda.
catatan
-
Anda tidak dapat mengontrol kedaluwarsa tabel jurnal atau snapshot tabel inventaris. Untuk setiap tabel, Amazon S3 menyimpan minimal 1 snapshot selama maksimal 24 jam.
-
Untuk membantu meminimalkan biaya, Anda dapat mengonfigurasi kedaluwarsa catatan tabel jurnal. Secara default, catatan tabel jurnal tidak kedaluwarsa, dan catatan tabel jurnal harus disimpan selama minimal 7 hari. Untuk informasi selengkapnya, lihat Menetapkan masa kedaluwarsa catatan tabel jurnal.