Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Skema unnesting & partisi data
Saat bekerja dengan sumber data NoSQL seperti aplikasi DynamoDB dan SaaS, data sering menghadirkan tantangan unik untuk analitik:
-
Catatan dalam tabel yang sama mungkin memiliki skema yang berbeda
-
Catatan bersarang dalam tabel yang sama dapat direpresentasikan secara berbeda
-
Struktur bersarang yang kompleks seperti peta dan array memerlukan transformasi untuk kueri yang efisien
-
Organisasi data yang optimal diperlukan untuk memastikan kinerja kueri dalam skala
AWS Integrasi Glue Zero-ETL mengatasi tantangan ini melalui dua kemampuan yang kuat:
-
Schema Unnesting: Secara otomatis meratakan struktur data bersarang yang kompleks ke dalam format yang ramah analitik, dengan tingkat unnesting yang dapat dikonfigurasi untuk menyeimbangkan antara mempertahankan struktur data dan mengoptimalkan untuk kesederhanaan kueri.
-
Partisi Data: Mengatur data ke dalam partisi logis berdasarkan kolom tertentu atau dimensi berbasis waktu, meningkatkan kinerja kueri dan mengurangi biaya dengan mengaktifkan pemangkasan partisi selama eksekusi kueri.
Untuk menanyakan sumber data tersebut secara efektif, AWS Glue Zero-ETL menyediakan out-of-the-box skema penanganan skema dan partisi untuk data sumber yang direplikasi dalam Database Glue target. AWS Anda dapat mengonfigurasi pengaturan unnesting dan partisi skema untuk setiap tabel melalui CreateIntegrationTableProperty API, memungkinkan kontrol yang disetel dengan baik atas bagaimana data disusun dan diatur untuk beban kerja analitik.
Perilaku unnesting & partisi default
-
AWS Glue Zero-ETL default ke FULL Unnest ketika tidak ada opsi Unnesting yang disediakan untuk tabel target
-
AWS Glue Zero-ETL default ke partisi Bucket saat tidak disediakan untuk tabel target PartitionSpec