Mempercepat penemuan data dengan Metadata S3 - Amazon Simple Storage Service

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mempercepat penemuan data dengan Metadata S3

Amazon S3 Metadata mempercepat penemuan data dengan secara otomatis menangkap metadata untuk objek di bucket tujuan umum Anda dan menyimpannya dalam tabel hanya-baca dan terkelola penuh yang dapat Anda kueri. Apache Iceberg Tabel read-only ini disebut tabel metadata. Saat objek ditambahkan, diperbarui, atau dihapus dari bucket tujuan umum Anda, Metadata S3 secara otomatis menyegarkan tabel metadata yang sesuai untuk mencerminkan perubahan terbaru.

Secara default, Metadata S3 menyediakan tiga jenis metadata:

Dengan Metadata S3, Anda dapat dengan mudah menemukan, menyimpan, dan menanyakan metadata untuk objek S3 Anda, sehingga Anda dapat dengan cepat menyiapkan data untuk digunakan dalam analisis bisnis, pengambilan konten, kecerdasan buatan dan pelatihan model pembelajaran mesin (AI/ML), dan banyak lagi.

Untuk setiap bucket tujuan umum, Anda dapat membuat konfigurasi tabel metadata yang berisi dua tabel metadata komplementer:

  • Tabel jurnal — Secara default, konfigurasi tabel metadata Anda berisi tabel jurnal, yang menangkap peristiwa yang terjadi untuk objek di bucket Anda. Tabel jurnal mencatat perubahan yang dibuat pada data Anda dalam waktu dekat, membantu Anda mengidentifikasi data baru yang diunggah ke bucket, melacak objek yang baru saja dihapus, memantau transisi siklus hidup, dan banyak lagi. Tabel jurnal mencatat objek baru dan pembaruan ke objek Anda dan metadatanya (pembaruan yang memerlukan operasi PUT atau DELETE operasi).

    Tabel jurnal menangkap metadata hanya untuk peristiwa perubahan (seperti unggahan, pembaruan, dan penghapusan) yang terjadi setelah Anda membuat konfigurasi tabel metadata Anda. Karena tabel ini dapat dikueri, Anda dapat mengaudit perubahan pada bucket Anda melalui kueri SQL sederhana.

    Tabel jurnal diperlukan untuk setiap konfigurasi tabel metadata. (Dalam rilis awal Metadata S3, tabel jurnal disebut sebagai “tabel metadata.”)

    Untuk informasi selengkapnya tentang data apa yang disimpan dalam tabel jurnal, lihatSkema tabel jurnal Metadata S3.

    Untuk membantu meminimalkan biaya penyimpanan, Anda dapat memilih untuk mengaktifkan kedaluwarsa catatan tabel jurnal. Untuk informasi selengkapnya, lihat Catatan tabel jurnal yang kedaluwarsa.

  • Tabel inventaris langsung - Secara opsional, Anda dapat menambahkan tabel inventaris langsung ke konfigurasi tabel metadata Anda. Tabel inventaris langsung menyediakan inventaris sederhana dan dapat dikueri dari semua objek dan versinya di bucket Anda sehingga Anda dapat menentukan status terbaru data Anda.

    Anda dapat menggunakan tabel inventaris langsung untuk menyederhanakan dan mempercepat alur kerja bisnis dan pekerjaan data besar dengan mengidentifikasi objek yang ingin Anda proses untuk berbagai beban kerja. Misalnya, Anda dapat menanyakan tabel inventaris langsung untuk menemukan semua objek yang disimpan dalam kelas penyimpanan tertentu, semua objek dengan tag tertentu, semua objek yang tidak dienkripsi dengan enkripsi sisi server menggunakan kunci AWS Key Management Service (AWS KMS) (SSE-KMS), dan banyak lagi.

    Saat Anda mengaktifkan tabel inventaris langsung untuk konfigurasi tabel metadata, tabel akan melalui proses yang dikenal sebagai penimbunan ulang, di mana Amazon S3 memindai bucket tujuan umum Anda untuk mengambil metadata awal untuk semua objek yang ada di bucket. Tergantung pada jumlah objek dalam ember Anda, proses ini dapat memakan waktu beberapa menit (minimal 15 menit) hingga jam. Ketika proses penimbunan ulang selesai, status tabel inventaris langsung Anda berubah dari Penimbunan Ulang menjadi Aktif. Setelah penimbunan ulang selesai, pembaruan objek Anda biasanya tercermin dalam tabel inventaris langsung dalam waktu satu jam.

    Anda dikenakan biaya untuk mengisi kembali tabel inventaris Anda. Jika ember tujuan umum Anda memiliki lebih dari satu miliar objek, Anda juga dikenakan biaya bulanan untuk tabel inventaris langsung Anda. Untuk informasi selengkapnya, lihat Harga Amazon S3.

    Untuk informasi selengkapnya tentang data apa yang disimpan dalam tabel inventaris langsung, lihatSkema tabel inventaris langsung Metadata S3.

Tabel metadata Anda disimpan dalam bucket tabel S3 AWS terkelola, yang menyediakan penyimpanan yang dioptimalkan untuk data tabular. Untuk menanyakan metadata Anda, Anda dapat mengintegrasikan keranjang meja Anda dengan Amazon SageMaker Lakehouse. Integrasi ini, yang menggunakan AWS Glue Data Catalog dan AWS Lake Formation, memungkinkan layanan AWS analitik untuk secara otomatis menemukan dan mengakses data tabel Anda.

Setelah bucket meja terintegrasi dengan AWS Glue Data Catalog, Anda dapat langsung menanyakan tabel metadata Anda dengan layanan AWS analitik seperti Amazon Athena, Amazon EMR, dan Amazon Redshift. Anda juga dapat membuat dasbor interaktif dengan data kueri Anda menggunakan Amazon QuickSight. Untuk informasi selengkapnya tentang mengintegrasikan bucket tabel S3 AWS terkelola Anda dengan Amazon SageMaker Lakehouse, lihat. Menggunakan Tabel Amazon S3 dengan layanan analitik AWS

Anda juga dapat menanyakan tabel metadata Anda denganApache Spark,Apache Trino, dan aplikasi lain yang mendukung Apache Iceberg format dengan menggunakan titik akhir AWS Glue Iceberg REST, titik akhir Amazon S3 Tables Iceberg REST, atau Katalog Tabel Amazon S3 untuk katalog klien. Apache Iceberg Untuk informasi selengkapnya tentang mengakses tabel metadata Anda, lihat. Mengakses data tabel

Untuk harga Metadata S3, lihat Harga Amazon S3.

Cara kerja tabel metadata

Tabel metadata dikelola oleh Amazon S3, dan tidak dapat dimodifikasi oleh prinsipal IAM di luar Amazon S3 itu sendiri. Namun, Anda dapat menghapus tabel metadata Anda. Akibatnya, tabel metadata bersifat hanya-baca, yang membantu memastikan bahwa tabel tersebut mencerminkan konten bucket tujuan umum Anda dengan benar.

Untuk membuat dan menyimpan metadata objek dalam tabel metadata AWS terkelola, Anda membuat konfigurasi tabel metadata untuk bucket tujuan umum Anda. Amazon S3 dirancang untuk terus memperbarui tabel metadata untuk mencerminkan perubahan terbaru pada data Anda selama konfigurasi aktif pada bucket tujuan umum.

Sebelum Anda membuat konfigurasi tabel metadata, pastikan Anda memiliki izin AWS Identity and Access Management (IAM) yang diperlukan untuk membuat dan mengelola tabel metadata. Untuk informasi selengkapnya, lihat Menyiapkan izin untuk mengonfigurasi tabel metadata.

Penyimpanan tabel metadata, organisasi, dan enkripsi

Saat Anda membuat konfigurasi tabel metadata, tabel metadata Anda disimpan dalam keranjang tabel terkelola AWS . Semua konfigurasi tabel metadata di akun Anda dan di Wilayah yang sama disimpan dalam satu keranjang tabel AWS terkelola. Bucket tabel AWS terkelola ini diberi nama aws-s3 dan memiliki format Amazon Resource Name (ARN) berikut:

arn:aws:s3tables:region:account_id:bucket/aws-s3

Misalnya, jika ID akun Anda adalah 123456789012 dan bucket tujuan umum Anda berada di US East (Virginia N.) (us-east-1), bucket tabel AWS terkelola Anda juga dibuat di US East (Virginia N.) () us-east-1 dan memiliki ARN berikut:

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Secara default, bucket tabel AWS terkelola dienkripsi dengan enkripsi sisi server menggunakan kunci terkelola Amazon S3 (SSE-S3). Setelah membuat konfigurasi metadata pertama, Anda dapat mengatur setelan enkripsi default untuk bucket tabel AWS terkelola agar menggunakan enkripsi sisi server dengan kunci AWS Key Management Service (AWS KMS) (SSE-KMS). Untuk informasi selengkapnya, lihat Enkripsi untuk bucket tabel AWS terkelola danMenentukan enkripsi sisi server dengan AWS KMS kunci (SSE-KMS) di bucket tabel.

Dalam bucket tabel AWS terkelola, tabel metadata untuk konfigurasi biasanya disimpan dalam namespace dengan format penamaan berikut:

b_general-purpose-bucket-name

catatan
  • Jika nama bucket tujuan umum Anda berisi periode apa pun, periode akan dikonversi menjadi garis bawah (_) dalam nama namespace.

  • Jika ember tujuan umum Anda dibuat sebelum 1 Maret 2018, namanya mungkin berisi huruf besar dan garis bawah, dan mungkin juga panjangnya hingga 255 karakter. Jika nama bucket Anda memiliki karakteristik ini, namespace tabel metadata Anda akan memiliki format yang berbeda. Nama bucket tujuan umum akan diawali denganb_, dipotong menjadi 63 karakter, dikonversi ke semua huruf kecil, dan diakhiran dengan hash.

Tabel metadata memiliki format Amazon Resource Name (ARN) berikut:

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/metadata_table_name

Tabel jurnal memiliki namajournal, dan tabel inventaris langsung memiliki namainventory.

Saat membuat konfigurasi tabel metadata, Anda dapat memilih untuk mengenkripsi tabel metadata AWS terkelola dengan enkripsi sisi server menggunakan kunci () (SSE-KMS). AWS Key Management Service AWS KMS Jika Anda memilih untuk menggunakan SSE-KMS, Anda harus menyediakan kunci KMS yang dikelola pelanggan di Wilayah yang sama dengan bucket tujuan umum Anda. Anda dapat mengatur jenis enkripsi untuk tabel Anda hanya selama pembuatan tabel. Setelah tabel AWS terkelola dibuat, Anda tidak dapat mengubah pengaturan enkripsi. Untuk menentukan SSE-KMS untuk tabel metadata Anda, Anda harus memiliki izin tertentu. Untuk informasi selengkapnya, lihat Izin untuk SSE-KMS.

Pengaturan enkripsi untuk tabel metadata lebih diutamakan daripada pengaturan enkripsi tingkat ember default. Jika Anda tidak menentukan enkripsi untuk tabel, itu akan mewarisi pengaturan enkripsi default dari bucket.

AWS bucket tabel terkelola tidak dihitung dalam kuota Tabel S3 Anda. Untuk informasi selengkapnya tentang bekerja dengan bucket tabel AWS terkelola dan tabel AWS terkelola, lihat Bekerja dengan bucket tabel AWS terkelola.

Untuk memantau pembaruan konfigurasi tabel metadata Anda, Anda dapat menggunakannya. AWS CloudTrail Untuk informasi selengkapnya, lihat Tindakan tingkat ember Amazon S3 yang dilacak dengan logging CloudTrail .

Pemeliharaan tabel metadata dan kedaluwarsa catatan

Agar tabel metadata Anda berkinerja terbaik, Amazon S3 melakukan aktivitas pemeliharaan berkala pada tabel Anda, seperti pemadatan dan penghapusan file yang tidak direferensikan. Aktivitas pemeliharaan ini membantu meminimalkan biaya penyimpanan tabel metadata Anda dan mengoptimalkan kinerja kueri. Pemeliharaan tabel ini terjadi secara otomatis, tidak memerlukan keikutsertaan atau manajemen berkelanjutan oleh Anda.

catatan
  • Anda tidak dapat mengontrol kedaluwarsa tabel jurnal atau snapshot tabel inventaris. Untuk setiap tabel, Amazon S3 menyimpan minimal 1 snapshot selama maksimal 24 jam.

  • Untuk membantu meminimalkan biaya, Anda dapat mengonfigurasi kedaluwarsa catatan tabel jurnal. Secara default, catatan tabel jurnal tidak kedaluwarsa, dan catatan tabel jurnal harus disimpan selama minimal 7 hari. Untuk informasi selengkapnya, lihat Catatan tabel jurnal yang kedaluwarsa.