Mengaktifkan optimasi tabel otomatis tingkat katalog - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan optimasi tabel otomatis tingkat katalog

Anda dapat mengaktifkan optimasi tabel otomatis untuk semua tabel Apache Iceberg baru di Katalog Data. Setelah membuat tabel, Anda juga dapat secara eksplisit memperbarui pengaturan pengoptimalan tabel secara manual.

Untuk memperbarui pengaturan Katalog Data untuk mengaktifkan pengoptimalan tabel tingkat katalog, peran IAM yang digunakan harus memiliki izin pada glue:UpdateCatalog katalog root. Anda dapat menggunakan GetCatalog API untuk memverifikasi properti katalog.

Untuk tabel terkelola Lake Formation, peran IAM yang dipilih selama konfigurasi pengoptimalan katalog memerlukan Lake FormationALTER,DESCRIBE,INSERT, dan DELETE izin untuk setiap tabel baru atau tabel yang diperbarui.

  1. Buka konsol Lake Formation di https://console.aws.amazon.com/lakeformation/.

  2. Di panel navigasi, pilih Katalog Data.

  3. Pilih tab Katalog.

  4. Pilih katalog tingkat akun.

  5. Pilih Pengoptimalan tabel, Edit di bawah tab Pengoptimalan tabel. Anda juga dapat memilih Edit pengoptimalan dari Tindakan.

    Tangkapan layar menunjukkan opsi edit untuk mengaktifkan pengoptimalan di tingkat katalog.
  6. Pada halaman optimasi Tabel, konfigurasikan opsi berikut:

    Tangkapan layar menunjukkan opsi pengoptimalan di tingkat katalog.
    1. Konfigurasikan pengaturan Pemadatan:

      • Aktifkan/nonaktifkan pemadatan.

      • Pilih peran IAM yang memiliki izin yang diperlukan untuk menjalankan pengoptimal.

        Untuk informasi selengkapnya tentang persyaratan izin untuk peran IAM, lihat Prasyarat pengoptimalan tabel .

    2. Konfigurasikan pengaturan retensi Snapshot:

      • Aktifkan/nonaktifkan retensi.

      • Tetapkan periode retensi snapshot dalam beberapa hari - default adalah 5 hari.

      • Setel jumlah snapshot yang akan dipertahankan - default adalah 1 snapshot.

      • Aktifkan/nonaktifkan pembersihan file yang kedaluwarsa.

    3. Konfigurasikan pengaturan penghapusan file Orphan:

      • Aktifkan/nonaktifkan penghapusan file yatim piatu.

      • Atur periode retensi file yatim piatu dalam beberapa hari - default adalah 3 hari.

  7. Pilih Simpan.

Gunakan perintah CLI berikut untuk memperbarui katalog yang ada dengan pengaturan pengoptimal:

contoh Perbarui katalog dengan pengaturan pengoptimal
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

Jika Anda mengalami masalah dengan pengoptimal tingkat katalog, periksa hal berikut:

  • Pastikan peran IAM memiliki izin yang benar seperti yang diuraikan di bagian Prasyarat.

  • Periksa CloudWatch log untuk setiap pesan kesalahan yang terkait dengan operasi pengoptimal.

    Untuk informasi selengkapnya, lihat Melihat metrik yang tersedia di Panduan Amazon CloudWatch Pengguna.

  • Verifikasi bahwa pengaturan katalog berhasil diterapkan dengan memeriksa konfigurasi katalog.

  • Untuk kegagalan akses tabel, periksa CloudWatch log dan EventBridge pemberitahuan untuk informasi kesalahan terperinci.