Aktivieren der automatischen Statistikgenerierung auf Katalogebene - AWS Glue

Aktivieren der automatischen Statistikgenerierung auf Katalogebene

Sie können die automatische Generierung von Spaltenstatistiken für alle neuen Apache-Iceberg-Tabellen und Tabellen in Nicht-OTF-Tabellenformaten (Parquet, JSON, CSV, XML, ORC, ION) im Datenkatalog aktivieren. Nachdem Sie die Tabelle erstellt haben, können Sie die Einstellungen für die Spaltenstatistik auch explizit manuell aktualisieren.

Um die Data-Catalog-Einstellungen so zu aktualisieren, dass sie die Katalogebene aktivieren, muss die verwendete IAM-Rolle über die Berechtigung glue:UpdateCatalog oder die Berechtigung AWS Lake Formation ALTER CATALOG für den Stammkatalog verfügen. Sie können die GetCatalog-API verwenden, um die Katalogeigenschaften zu überprüfen.

AWS Management Console
So aktivieren Sie die automatische Generierung von Spaltenstatistiken auf Kontoebene
  1. Öffnen Sie die Lake-Formation-Konsole unter https://console.aws.amazon.com/lakeformation/.

  2. Wählen Sie in der linken Navigationsleiste die Option Kataloge aus.

  3. Wählen Sie auf der Seite mit der Katalogübersicht unter Optimierungskonfiguration die Option Bearbeiten aus.

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
  4. Wählen Sie auf der Seite Konfiguration für die Tabellenoptimierung die Option Automatische Statistikgenerierung für die Tabellen des Katalogs aktivieren aus.

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
  5. Wählen Sie eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue, die über die erforderlichen Berechtigungen zum Ausführen der Aufgabe für Spaltenstatistiken verfügt.

  6. Wählen Sie Absenden aus.

AWS CLI

Sie können die Erfassung von Statistiken auf Katalogebene auch über die AWS CLI aktivieren. Um die Statistikerfassung auf Tabellenebene mit AWS CLI zu konfigurieren, müssen Sie den folgenden Befehl ausführen:

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

Der obige Befehl ruft in AWS Glue die UpdateCatalog-Operation auf, die eine CatalogProperties-Struktur mit den folgenden Schlüssel/Wert-Paaren für die Generierung von Statistiken auf Katalogebene verwendet:

  • ColumnStatistics.RoleArn – ARN der IAM-Rolle, der für alle Aufgaben verwendet werden soll, die für die Generierung von Statistiken auf Katalogebene ausgelöst werden

  • ColumnStatistics.Enabled – Boolescher Wert, der angibt, ob die Einstellungen auf Katalogebene aktiviert oder deaktiviert sind