Membongkar data semi-terstruktur - Amazon Redshift

Amazon Redshift tidak akan lagi mendukung pembuatan Python UDFs baru mulai Patch 198. Python yang ada UDFs akan terus berfungsi hingga 30 Juni 2026. Untuk informasi lebih lanjut, lihat posting blog.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membongkar data semi-terstruktur

Dengan Amazon Redshift, Anda dapat mengekspor data semi-terstruktur dari cluster Amazon Redshift ke Amazon S3 dalam berbagai format, termasuk teks, Apache Parquet, Apache ORC, dan Avro. Bagian berikut akan memandu Anda melalui proses mengonfigurasi dan menjalankan operasi pembongkaran untuk data semi-terstruktur Anda di Amazon Redshift.

CSV or text formats

Anda dapat membongkar tabel dengan kolom data SUPER ke Amazon S3 dalam nilai dipisahkan koma (CSV) atau format teks. Menggunakan kombinasi navigasi dan klausa unnest, Amazon Redshift membongkar data hierarkis dalam format data SUPER ke Amazon S3 dalam format CSV atau teks. Selanjutnya, Anda dapat membuat tabel eksternal terhadap data yang dibongkar dan menanyakannya menggunakan Redshift Spectrum. Untuk informasi tentang penggunaan UNLOAD dan izin IAM yang diperlukan, lihat. MEMBONGKAR

Contoh berikut membongkar semua data dari tabel Amazon Redshift ke dalam bucket Amazon S3.

UNLOAD ('SELECT * FROM <redshift_table>') TO '<S3_bucket>' IAM_ROLE '<iam_role>' DELIMITER AS '|' GZIP ALLOWOVERWRITE;

Tidak seperti tipe data lain di mana string yang ditentukan pengguna mewakili nilai nol, Amazon Redshift mengekspor kolom data SUPER menggunakan format JSON dan merepresentasikannya sebagai null sebagaimana ditentukan oleh format JSON. Akibatnya, kolom data SUPER mengabaikan opsi NULL [AS] yang digunakan dalam perintah UNLOAD.

Parquet format

Anda dapat membongkar tabel dengan kolom data SUPER ke Amazon S3 dalam format Parket. Amazon Redshift mewakili kolom SUPER di Parket sebagai tipe data JSON. Hal ini memungkinkan data semi-terstruktur untuk direpresentasikan dalam Parket. Anda dapat menanyakan kolom ini menggunakan Redshift Spectrum atau menelannya kembali ke Amazon Redshift menggunakan perintah COPY. Untuk informasi tentang penggunaan UNLOAD dan izin IAM yang diperlukan, lihat. MEMBONGKAR

Contoh berikut membongkar semua data dari tabel Amazon Redshift ke bucket Amazon S3 dalam format Parket.

UNLOAD ('SELECT * FROM <Amazon Redshift_table>') TO '<S3_bucket>' IAM_ROLE '<iam_role>' FORMAT PARQUET;