Aktivieren der automatischen Tabellenoptimierung auf Katalogebene - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aktivieren der automatischen Tabellenoptimierung auf Katalogebene

Sie können die automatische Tabellenoptimierung für alle neuen Apache-Iceberg-Tabellen im Datenkatalog aktivieren. Nachdem Sie die Tabelle erstellt haben, können Sie die Einstellungen für die Tabellenoptimierung auch explizit manuell aktualisieren.

Um die Datenkatalog-Einstellungen zu aktualisieren und Tabellenoptimierungen auf Katalogebene zu ermöglichen, muss die verwendete IAM-Rolle über die glue:UpdateCatalog-Berechtigung für den Stammkatalog verfügen. Sie können die GetCatalog-API verwenden, um die Katalogeigenschaften zu überprüfen.

Für die von Lake Formation verwalteten Tabellen erfordert die während der Katalogoptimierungskonfiguration ausgewählte IAM-Rolle die Lake-Formation-Berechtigungen ALTER, DESCRIBE, INSERT und DELETE für alle neuen oder aktualisierten Tabellen.

  1. Öffnen Sie die Lake-Formation-Konsole unter https://console.aws.amazon.com/lakeformation/.

  2. Wählen Sie im Navigationsbereich die Option Datenkatalog.

  3. Wählen Sie die Registerkarte Kataloge aus.

  4. Wählen Sie den Katalog auf Kontoebene.

  5. Wählen Sie auf der Registerkarte Tabellenoptimierungen unter Tabellenoptimierungen die Option Bearbeiten aus. Sie können auch unter Aktionen die Option Optimierungen bearbeiten auswählen.

    Der Screenshot zeigt die Bearbeitungsoption, mit der Optimierungen auf Katalogebene aktiviert werden können.
  6. Konfigurieren Sie auf der Seite AWS-Optionen Folgendes:

    Der Screenshot zeigt die Optimierungsoptionen auf Katalogebene.
    1. Konfigurieren Sie die Einstellungen für die Komprimierung:

      • Aktivieren oder deaktivieren Sie die Komprimierung.

      • Wählen Sie die IAM-Rolle aus, die über die erforderlichen Berechtigungen zum Ausführen der Optimierer verfügt.

        Weitere Informationen zu den Berechtigungsanforderungen für die IAM-Rolle finden Sie unter Voraussetzungen für die Tabellenoptimierung .

    2. Konfigurieren Sie die Einstellungen für die Aufbewahrung von Snapshots:

      • Aktivieren oder deaktivieren Sie die Aufbewahrung.

      • Legen Sie die Snapshot-Aufbewahrungsdauer in Tagen fest. Die Standardeinstellung ist 5 Tage.

      • Legen Sie die Anzahl der Snapshots fest, die beibehalten werden sollen. Die Standardeinstellung ist 1 Snapshot.

      • Aktivieren oder deaktivieren Sie das Löschen abgelaufener Dateien.

    3. Konfigurieren Sie die Einstellungen für das Löschen verwaister Dateien:

      • Aktivieren oder deaktivieren Sie das Löschen verwaister Dateien.

      • Legen Sie die Aufbewahrungsdauer verwaister Dateien in Tagen fest. Die Standardeinstellung ist 3 Tage.

  7. Wählen Sie Speichern.

Verwenden Sie den folgenden CLI-Befehl, um einen vorhandenen Katalog mit Optimierer-Einstellungen zu aktualisieren:

Beispiel Katalog mit Optimierer-Einstellungen aktualisieren
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

Wenn Sie Probleme mit Optimierern auf Katalogebene haben, überprüfen Sie Folgendes:

  • Stellen Sie sicher, dass die IAM-Rolle über die richtigen Berechtigungen verfügt, wie im Abschnitt „Voraussetzungen“ beschrieben.

  • Suchen Sie in den CloudWatch-Protokollen nach Fehlermeldungen im Zusammenhang mit Optimierer-Vorgängen.

    Weitere Informationen finden Sie unter Anzeigen der verfügbaren Metriken im Benutzerhandbuch für Amazon CloudWatch.

  • Stellen Sie sicher, dass die Katalogeinstellungen erfolgreich angewendet wurden, indem Sie die Katalogkonfiguration überprüfen.

  • Bei Tabellenzugriffsfehlern finden Sie in den CloudWatch-Protokollen und EventBridge-Benachrichtigungen detaillierte Fehlerinformationen.