Meminta data lake - Amazon Redshift

Amazon Redshift tidak akan lagi mendukung pembuatan Python UDFs baru mulai 1 November 2025. Jika Anda ingin menggunakan Python UDFs, buat UDFs sebelum tanggal tersebut. Python yang ada UDFs akan terus berfungsi seperti biasa. Untuk informasi lebih lanjut, lihat posting blog.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meminta data lake

Anda dapat melakukan kueri data di danau data Amazon S3 dengan mengikuti serangkaian tugas dalam tutorial ini. Pertama, Anda membuat skema eksternal untuk referensi database eksternal di. AWS Glue Data Catalog Kemudian, Anda dapat melakukan kueri data di danau data Amazon S3.

Demo: Kueri danau data

Untuk mempelajari cara menanyakan data lake, tonton video berikut.

Prasyarat

Sebelum Anda bekerja dengan data lake Anda di editor kueri v2, konfirmasikan bahwa hal berikut telah disiapkan di lingkungan Amazon Redshift Anda:

  • Merayapi data Amazon S3 Anda AWS Glue menggunakan dan mengaktifkan Katalog Data Anda. AWS Lake Formation

  • Buat peran IAM untuk Amazon Redshift menggunakan Katalog Data AWS Glue yang diaktifkan untuk. AWS Lake Formation Untuk detail tentang prosedur ini, lihat Untuk membuat peran IAM untuk Amazon Redshift menggunakan AWS Glue Data Catalog enabled for. AWS Lake Formation Untuk informasi lebih lanjut tentang penggunaan Redshift Spectrum dan Lake Formation, lihat Menggunakan Redshift Spectrum dengan. AWS Lake Formation

  • Berikan izin SELECT pada tabel untuk kueri di database Lake Formation. Untuk detail tentang prosedur ini, lihat Untuk memberikan izin SELECT pada tabel untuk kueri di database Lake Formation.

    Anda dapat memverifikasi di konsol Lake Formation (https://console.aws.amazon.com/lakeformation/), bagian Izin, halaman izin data lake, bahwa peran IAM, AWS Glue database, dan tabel memiliki izin yang tepat.

  • Konfirmasikan bahwa pengguna Anda yang terhubung memiliki izin untuk membuat skema di database Amazon Redshift dan mengakses data di danau data Anda. Saat Anda terhubung ke database di editor kueri v2, Anda memilih metode otentikasi yang menyertakan kredensil, yang dapat berupa pengguna database atau pengguna IAM. Pengguna yang terhubung harus memiliki izin dan hak istimewa database yang tepat, seperti file. superuser adminPengguna Amazon Redshift yang membuat cluster atau workgroup memiliki superuser hak istimewa dan dapat membuat skema dan mengelola database Redshift. Untuk informasi selengkapnya tentang menghubungkan ke database dengan editor kueri v2, lihatMenghubungkan ke database Amazon Redshift.

Membuat skema eksternal

Untuk melakukan kueri data di danau data Amazon S3, buat skema eksternal terlebih dahulu. Skema eksternal mereferensikan database eksternal di file. AWS Glue Data Catalog

  1. Dalam tampilan Editor editor kueri v2, pilih Create Buat, lalu pilih Skema.

  2. Masukkan nama Skema.

  3. Untuk tipe Skema, pilih Eksternal.

  4. Dalam detail Katalog Data, Wilayah default ke tempat database Redshift Wilayah AWS Anda berada.

  5. Pilih AWS Glue database yang akan dipetakan oleh skema eksternal dan yang berisi referensi ke AWS Glue tabel.

  6. Pilih peran IAM untuk Amazon Redshift yang memiliki izin yang diperlukan untuk menanyakan data di Amazon S3.

  7. Secara opsional, pilih peran IAM yang memiliki izin ke Katalog Data.

  8. Pilih Buat skema.

    Skema muncul di bawah database Anda di panel tampilan pohon.

Saat membuat skema, jika Anda menerima kesalahan izin ditolak untuk database Anda, periksa apakah pengguna yang terhubung memiliki hak istimewa database untuk membuat skema.

Menanyakan data di danau data Amazon S3 Anda

Anda menggunakan skema yang Anda buat dalam prosedur sebelumnya.

  1. Di panel tampilan pohon, pilih skema.

  2. Untuk melihat definisi tabel, pilih tabel. Kolom tabel dan tipe data ditampilkan.

  3. Untuk menanyakan tabel, pilih tabel dan di menu konteks (klik kanan), pilih Pilih tabel untuk menghasilkan kueri.

  4. Jalankan kueri di Editor.

    Contoh SQL berikut dihasilkan oleh query editor v2 untuk query semua baris dalam AWS Glue tabel bernamaflightscsv. Kolom dan baris yang ditunjukkan dalam output dipotong untuk kesederhanaan.

    SELECT * FROM "dev"."mydatalake_schema"."flightscsv"; year quarter month dom day_of_week fl_date unique_carrier airline_id carrier tail_num fl_num 2016 4 10 19 3 10/19/16 OO 20304 OO N753SK 3086 2016 4 10 19 3 10/19/16 OO 20304 OO N753SK 3086 2016 4 10 19 3 10/19/16 OO 20304 OO N778SK 3087 2016 4 10 19 3 10/19/16 OO 20304 OO N778SK 3087 ...