Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan tabel Apache Iceberg dengan Amazon Redshift
Topik ini menjelaskan cara menggunakan tabel dalam format Apache Iceberg dengan Redshift Spectrum atau Redshift Serverless. Apache Iceberg adalah format kinerja tinggi untuk tabel analitik besar.
Anda dapat menggunakan Redshift Spectrum atau Redshift Serverless untuk menanyakan tabel Apache Iceberg yang dikatalogkan di. AWS Glue Data Catalog Apache Iceberg adalah format tabel sumber terbuka untuk danau data. Untuk informasi lebih lanjut, lihat Apache Iceberg di dokumentasi Apache Iceberg
Amazon Redshift memberikan konsistensi transaksional untuk menanyakan tabel Apache Iceberg. Anda dapat memanipulasi data dalam tabel menggunakan layanan yang sesuai dengan ACID (atomisitas, konsistensi, isolasi, daya tahan) seperti Amazon Athena dan Amazon EMR saat menjalankan kueri menggunakan Amazon Redshift. Amazon Redshift dapat menggunakan statistik tabel yang disimpan dalam metadata Apache Iceberg untuk mengoptimalkan paket kueri dan mengurangi pemindaian file selama pemrosesan kueri. Dengan Amazon Redshift SQL, Anda dapat menggabungkan tabel Redshift dengan tabel data lake.
Untuk mulai menggunakan tabel Iceberg dengan Amazon Redshift:
Buat tabel Apache Iceberg pada AWS Glue Data Catalog database menggunakan layanan yang kompatibel seperti Amazon Athena atau Amazon EMR. Untuk membuat tabel Gunung Es menggunakan Athena, lihat Menggunakan tabel Apache Iceberg di Panduan Pengguna Amazon Athena.
Buat klaster Amazon Redshift atau grup kerja Redshift Serverless dengan peran IAM terkait yang memungkinkan akses ke data lake Anda. Untuk informasi tentang cara membuat klaster atau grup kerja, lihat Memulai gudang data yang disediakan Amazon Redshift dan Memulai gudang data Tanpa Server Redshift di Panduan Memulai Pergeseran Merah Amazon.
Connect ke cluster atau workgroup Anda menggunakan query editor v2 atau klien SQL pihak ketiga. Untuk informasi tentang cara menyambung menggunakan editor kueri v2, lihat Menyambungkan ke gudang data Amazon Redshift menggunakan alat klien SQL di Panduan Manajemen Amazon Redshift.
Buat skema eksternal di database Amazon Redshift Anda untuk database Katalog Data tertentu yang menyertakan tabel Iceberg Anda. Untuk informasi tentang membuat skema eksternal, lihatSkema eksternal di Amazon Redshift Spectrum.
Jalankan kueri SQL untuk mengakses tabel Iceberg dalam skema eksternal yang Anda buat.
Pertimbangan saat menggunakan tabel Apache Iceberg dengan Amazon Redshift
Pertimbangkan hal berikut saat menggunakan Amazon Redshift dengan tabel Iceberg:
-
Dukungan versi Iceberg - Amazon Redshift mendukung kueri yang berjalan terhadap versi tabel Iceberg berikut:
-
Versi 1 mendefinisikan bagaimana tabel analitik besar dikelola menggunakan file data yang tidak dapat diubah.
-
Versi 2 menambahkan kemampuan untuk mendukung pembaruan dan penghapusan tingkat baris sambil menjaga file data yang ada tidak berubah, dan menangani perubahan data tabel menggunakan file hapus.
Untuk perbedaan antara tabel versi 1 dan versi 2, lihat Format perubahan versi dalam dokumentasi
Apache Iceberg. -
-
Hanya kueri - Amazon Redshift mendukung akses hanya-baca ke tabel Apache Iceberg. Ini mendukung kueri pilih yang konsisten transaksional. Anda dapat menggunakan layanan seperti Amazon Athena untuk menentukan dan memperbarui skema tabel Iceberg di. AWS Glue Data Catalog
-
Menambahkan partisi - Anda tidak perlu menambahkan partisi secara manual untuk tabel Apache Iceberg Anda. Partisi baru dalam tabel Apache Iceberg secara otomatis terdeteksi oleh Amazon Redshift dan tidak diperlukan operasi manual untuk memperbarui partisi dalam definisi tabel. Setiap perubahan dalam spesifikasi partisi juga secara otomatis diterapkan ke kueri Anda tanpa campur tangan pengguna.
-
Menyerap data Gunung Es ke Amazon Redshift - Anda dapat menggunakan perintah INSERT INTO atau CREATE TABLE AS untuk mengimpor data dari tabel Iceberg ke tabel Amazon Redshift lokal. Saat ini Anda tidak dapat menggunakan perintah COPY untuk menyerap konten tabel Apache Iceberg ke dalam tabel Amazon Redshift lokal.
-
Tampilan terwujud - Anda dapat membuat tampilan terwujud pada tabel Apache Iceberg seperti tabel eksternal lainnya di Amazon Redshift. Pertimbangan yang sama untuk format tabel data lake lainnya berlaku untuk tabel Apache Iceberg. Penyegaran otomatis, penulisan ulang kueri otomatis, dan otomatis MVs pada tabel data lake saat ini tidak didukung.
-
AWS Lake Formation kontrol akses berbutir halus - Amazon Redshift mendukung kontrol akses AWS Lake Formation berbutir halus pada tabel Apache Iceberg.
-
Parameter penanganan data yang ditentukan pengguna — Amazon Redshift mendukung parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg. Anda menggunakan parameter penanganan data yang ditentukan pengguna pada file yang ada untuk menyesuaikan data yang sedang ditanyakan di tabel eksternal untuk menghindari kesalahan pemindaian. Parameter ini memberikan kemampuan untuk menangani ketidakcocokan antara skema tabel dan data aktual pada file. Anda dapat menggunakan parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg juga.
-
Pertanyaan perjalanan waktu — Pertanyaan perjalanan waktu saat ini tidak didukung dengan tabel Apache Iceberg.
-
Harga — Saat Anda mengakses tabel Iceberg dari klaster, Anda dikenakan harga Redshift Spectrum. Saat Anda mengakses tabel Iceberg dari grup kerja, Anda dikenakan harga Redshift Tanpa Server. Untuk informasi tentang harga Redshift Spectrum dan Redshift Tanpa Server, lihat harga Amazon Redshift.