Automatische Tabellenoptimierung auf Katalogebene aktivieren - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Automatische Tabellenoptimierung auf Katalogebene aktivieren

Sie können die automatische Tabellenoptimierung für alle neuen Apache Iceberg-Tabellen im Datenkatalog aktivieren. Nach dem Erstellen der Tabelle können Sie die Einstellungen für die Tabellenoptimierung auch explizit manuell aktualisieren.

Um die Datenkatalogeinstellungen zu aktualisieren, um Tabellenoptimierungen auf Katalogebene zu ermöglichen, muss die verwendete IAM-Rolle über die entsprechenden glue:UpdateCatalog Berechtigungen für den Stammkatalog verfügen. Sie können die GetCatalog API verwenden, um die Katalogeigenschaften zu überprüfen.

Für die von Lake Formation verwalteten Tabellen erfordert die IAM-Rolle, die während der Konfiguration der Katalogoptimierung ausgewählt wurdeALTER, Lake Formation DESCRIBEINSERT,, und DELETE Berechtigungen für alle neuen Tabellen oder aktualisierten Tabellen.

  1. Öffnen Sie die Lake Formation Formation-Konsole unter https://console.aws.amazon.com/lakeformation/.

  2. Wählen Sie im Navigationsbereich Datenkatalog aus.

  3. Wählen Sie die Registerkarte Kataloge aus.

  4. Wählen Sie den Katalog auf Kontoebene.

  5. Wählen Sie auf der Registerkarte Tabellenoptimierungen die Option Tabellenoptimierungen, Bearbeiten aus. Sie können auch unter Aktionen die Option Optimierungen bearbeiten auswählen.

    Der Screenshot zeigt die Bearbeitungsoption, mit der Optimierungen auf Katalogebene aktiviert werden können.
  6. Konfigurieren Sie auf der Seite Tabellenoptimierung die folgenden Optionen:

    Der Screenshot zeigt die Optimierungsoptionen auf Katalogebene.
    1. Konfigurieren Sie die Verdichtungseinstellungen:

      • Aktivieren/deaktivieren Sie die Komprimierung.

      • Wählen Sie die IAM-Rolle aus, die über die erforderlichen Berechtigungen zum Ausführen der Optimierer verfügt.

        Weitere Informationen zu den Berechtigungsanforderungen für die IAM-Rolle finden Sie unter. Voraussetzungen für die Tabellenoptimierung

    2. Konfigurieren Sie die Einstellungen für die Aufbewahrung von Snapshots:

      • Aktivieren/deaktivieren Sie die Aufbewahrung.

      • Legen Sie die Aufbewahrungsdauer für Snapshots in Tagen fest. Die Standardeinstellung ist 5 Tage.

      • Legen Sie die Anzahl der zu speichernden Snapshots fest. Die Standardeinstellung ist 1 Snapshot.

      • Aktiviert/deaktiviert die Säuberung abgelaufener Dateien.

    3. Konfigurieren Sie die Einstellungen für das Löschen verwaister Dateien:

      • Aktivieren/deaktivieren Sie das Löschen verwaister Dateien.

      • Legen Sie die Aufbewahrungsfrist für verwaiste Dateien in Tagen fest. Die Standardeinstellung ist 3 Tage.

  7. Wählen Sie Speichern.

Verwenden Sie den folgenden CLI-Befehl, um einen vorhandenen Katalog mit Optimizer-Einstellungen zu aktualisieren:

Beispiel Katalog mit Optimizer-Einstellungen aktualisieren
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

Wenn Sie Probleme mit Optimierern auf Katalogebene haben, überprüfen Sie Folgendes:

  • Stellen Sie sicher, dass die IAM-Rolle über die richtigen Berechtigungen verfügt, wie im Abschnitt Voraussetzungen beschrieben.

  • Suchen Sie in den CloudWatch Protokollen nach Fehlermeldungen im Zusammenhang mit Optimizer-Vorgängen.

    Weitere Informationen finden Sie unter Anzeigen der verfügbaren Metriken im Benutzerhandbuch für Amazon CloudWatch .

  • Stellen Sie sicher, dass die Katalogeinstellungen erfolgreich angewendet wurden, indem Sie die Katalogkonfiguration überprüfen.

  • Bei Tabellenzugriffsfehlern finden Sie in den CloudWatch Protokollen und EventBridge Benachrichtigungen detaillierte Fehlerinformationen.