Bekerja dengan Tabel Amazon S3 dan ember meja - Amazon Simple Storage Service

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan Tabel Amazon S3 dan ember meja

Tabel Amazon S3 menyediakan penyimpanan S3 yang dioptimalkan untuk beban kerja analitik, dengan fitur yang dirancang untuk terus meningkatkan kinerja kueri dan mengurangi biaya penyimpanan untuk tabel. Tabel S3 dibuat khusus untuk menyimpan data tabular, seperti transaksi pembelian harian, data sensor streaming, atau tayangan iklan. Data tabular mewakili data dalam kolom dan baris, seperti dalam tabel database.

Data dalam Tabel S3 disimpan dalam tipe bucket baru: bucket tabel, yang menyimpan tabel sebagai subresource. Bucket meja mendukung penyimpanan tabel di Apache Iceberg format. Menggunakan pernyataan SQL standar, Anda dapat menanyakan tabel Anda dengan mesin kueri yang mendukung Iceberg, seperti Amazon Athena, Amazon Redshift, dan Apache Spark.

Fitur Tabel S3

Penyimpanan yang dibuat khusus untuk tabel

Bucket meja S3 dirancang khusus untuk tabel. Bucket tabel menyediakan transaksi per detik (TPS) yang lebih tinggi dan throughput kueri yang lebih baik dibandingkan dengan tabel yang dikelola sendiri di bucket tujuan umum S3. Bucket meja memberikan daya tahan, ketersediaan, dan skalabilitas yang sama dengan jenis bucket Amazon S3 lainnya.

Dukungan bawaan untuk Apache Iceberg

Tabel di ember meja Anda disimpan di Apache Icebergformat. Anda dapat menanyakan tabel ini menggunakan SQL standar di mesin kueri yang mendukung Iceberg. Iceberg memiliki berbagai fitur untuk mengoptimalkan kinerja kueri, termasuk evolusi skema dan evolusi partisi.

Dengan Iceberg, Anda dapat mengubah bagaimana data Anda diatur sehingga dapat berkembang dari waktu ke waktu tanpa mengharuskan Anda untuk menulis ulang kueri Anda atau membangun kembali struktur data Anda. Iceberg dirancang untuk membantu memastikan konsistensi dan keandalan data melalui dukungannya untuk transaksi. Untuk membantu Anda memperbaiki masalah atau melakukan kueri perjalanan waktu, Anda dapat melacak bagaimana data berubah dari waktu ke waktu dan memutar kembali ke versi historis.

Optimalisasi tabel otomatis

Untuk mengoptimalkan tabel Anda untuk kueri, S3 terus melakukan operasi pemeliharaan otomatis, seperti pemadatan, manajemen snapshot, dan penghapusan file yang tidak direferensikan. Operasi ini meningkatkan kinerja tabel dengan memadatkan objek yang lebih kecil menjadi file yang lebih sedikit dan lebih besar. Operasi pemeliharaan juga mengurangi biaya penyimpanan Anda dengan membersihkan benda yang tidak terpakai. Pemeliharaan otomatis ini merampingkan pengoperasian data lake dalam skala besar dengan mengurangi kebutuhan akan pemeliharaan meja manual. Untuk setiap keranjang meja dan meja, Anda dapat menyesuaikan konfigurasi pemeliharaan.

Manajemen akses dan keamanan

Anda dapat mengelola akses untuk bucket tabel dan tabel individual dengan AWS Identity and Access Management (IAM) dan Kebijakan Kontrol Layanan di. AWS OrganizationsTabel S3 menggunakan namespace layanan yang berbeda dari Amazon S3: namespace s3tables. Oleh karena itu, Anda dapat merancang kebijakan khusus untuk layanan Tabel S3 dan sumber dayanya. Anda dapat merancang kebijakan untuk memberikan akses ke tabel individual, semua tabel dalam namespace tabel, atau seluruh bucket tabel. Semua pengaturan Akses Publik Blok Amazon S3 selalu diaktifkan untuk bucket tabel dan tidak dapat dinonaktifkan.

Integrasi dengan layanan AWS analitik

Anda dapat secara otomatis mengintegrasikan bucket tabel Amazon S3 Anda dengan Amazon SageMaker Lakehouse melalui konsol S3. Integrasi ini memungkinkan layanan AWS analitik untuk secara otomatis menemukan dan mengakses data tabel Anda melalui AWS Glue Data Catalog. Setelah integrasi, Anda dapat bekerja dengan tabel Anda menggunakan layanan analitik seperti Amazon Athena, Amazon Redshift QuickSight, dan banyak lagi. Untuk informasi selengkapnya tentang cara kerja integrasi, lihatMenggunakan Tabel Amazon S3 dengan layanan analitik AWS.

Layanan terkait

Anda dapat menggunakan yang berikut ini Layanan AWS dengan Tabel S3 untuk mendukung aplikasi analitik spesifik Anda.

  • Amazon Athena - Athena adalah layanan kueri interaktif yang dapat Anda gunakan untuk menganalisis data secara langsung di Amazon S3 dengan menggunakan SQL standar. Anda juga dapat menggunakan Athena untuk menjalankan analisis data secara interaktif dengan menggunakan Apache Spark tanpa harus merencanakan, mengkonfigurasi, atau mengelola sumber daya. Saat Anda berlari Apache Spark aplikasi di Athena, Anda kirimkan Spark kode untuk memproses dan menerima hasilnya secara langsung.

  • AWS Glue— AWS Glue adalah layanan integrasi data tanpa server yang memungkinkan Anda menemukan, menyiapkan, memindahkan, dan mengintegrasikan data dari berbagai sumber. Anda dapat menggunakan AWS Glue untuk analitik, pembelajaran mesin (ML), dan pengembangan aplikasi. AWS Glue juga mencakup produktivitas tambahan dan perkakas operasi data untuk menulis, menjalankan pekerjaan, dan mengimplementasikan alur kerja bisnis.

  • Amazon EMR - Amazon EMR adalah platform cluster terkelola yang menyederhanakan menjalankan kerangka kerja data besar, seperti Apache Hadoop and Apache Spark, AWS untuk memproses dan menganalisis sejumlah besar data.

  • Amazon Redshift — Amazon Redshift adalah layanan gudang data skala petabyte di cloud. Anda dapat menggunakan Amazon Redshift Tanpa Server untuk mengakses dan menganalisis data tanpa semua konfigurasi gudang data yang disediakan. Sumber daya secara otomatis disediakan dan kapasitas gudang data diskalakan secara cerdas untuk memberikan kinerja yang cepat bahkan untuk beban kerja yang paling menuntut dan tidak dapat diprediksi. Anda tidak dikenakan biaya saat gudang data menganggur, jadi Anda hanya membayar untuk apa yang Anda gunakan. Anda dapat memuat data dan mulai melakukan kueri segera di editor kueri Amazon Redshift v2 atau di alat intelijen bisnis (BI) favorit Anda.

  • QuickSight— QuickSight adalah layanan analisis bisnis untuk membangun visualisasi, melakukan analisis ad hoc, dan dengan cepat mendapatkan wawasan bisnis dari data Anda. QuickSight menemukan sumber AWS data dengan mulus dan memberikan kinerja kueri yang cepat dan responsif dengan menggunakan QuickSight Super-cepat, Paralel, Dalam Memori, Mesin Perhitungan (SPICE).

  • AWS Lake Formation— Lake Formation adalah layanan terkelola yang merampingkan proses untuk mengatur, mengamankan, dan mengelola danau data Anda. Lake Formation membantu Anda menemukan sumber data Anda dan kemudian membuat katalog, membersihkan, dan mengubah data. Dengan Lake Formation, Anda dapat mengelola kontrol akses berbutir halus untuk data lake data Anda di Amazon S3 dan metadatanya di. AWS Glue Data Catalog