Aktivieren der automatischen Statistikgenerierung auf Katalogebene
Sie können die automatische Generierung von Spaltenstatistiken für alle neuen Apache-Iceberg-Tabellen und Tabellen in Nicht-OTF-Tabellenformaten (Parquet, JSON, CSV, XML, ORC, ION) im Datenkatalog aktivieren. Nachdem Sie die Tabelle erstellt haben, können Sie die Einstellungen für die Spaltenstatistik auch explizit manuell aktualisieren.
Um die Data-Catalog-Einstellungen so zu aktualisieren, dass sie die Katalogebene aktivieren, muss die verwendete IAM-Rolle über die Berechtigung glue:UpdateCatalog oder die Berechtigung AWS Lake Formation ALTER CATALOG für den Stammkatalog verfügen. Sie können die GetCatalog-API verwenden, um die Katalogeigenschaften zu überprüfen.
- AWS Management Console
-
So aktivieren Sie die automatische Generierung von Spaltenstatistiken auf Kontoebene
Öffnen Sie die Lake-Formation-Konsole unter https://console.aws.amazon.com/lakeformation/.
Wählen Sie in der linken Navigationsleiste die Option Kataloge aus.
Wählen Sie auf der Seite mit der Katalogübersicht unter Optimierungskonfiguration die Option Bearbeiten aus.
-
Wählen Sie auf der Seite Konfiguration für die Tabellenoptimierung die Option Automatische Statistikgenerierung für die Tabellen des Katalogs aktivieren aus.
-
Wählen Sie eine vorhandene IAM-Rolle aus oder erstellen Sie eine neue, die über die erforderlichen Berechtigungen zum Ausführen der Aufgabe für Spaltenstatistiken verfügt.
-
Wählen Sie Absenden aus.
- AWS CLI
-
Sie können die Erfassung von Statistiken auf Katalogebene auch über die AWS CLI aktivieren. Um die Statistikerfassung auf Tabellenebene mit AWS CLI zu konfigurieren, müssen Sie den folgenden Befehl ausführen:
aws glue update-catalog --cli-input-json '{
"name": "123456789012",
"catalogInput": {
"description": "Updating root catalog with role arn",
"catalogProperties": {
"customProperties": {
"ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
"ColumnStatistics.Enabled": "true"
}
}
}
}'
Der obige Befehl ruft in AWS Glue die UpdateCatalog-Operation auf, die eine CatalogProperties-Struktur mit den folgenden Schlüssel/Wert-Paaren für die Generierung von Statistiken auf Katalogebene verwendet:
-
ColumnStatistics.RoleArn – ARN der IAM-Rolle, der für alle Aufgaben verwendet werden soll, die für die Generierung von Statistiken auf Katalogebene ausgelöst werden
-
ColumnStatistics.Enabled – Boolescher Wert, der angibt, ob die Einstellungen auf Katalogebene aktiviert oder deaktiviert sind