On-Demand-Generierung von Spaltenstatistiken
Sie können die Aufgabe zum Generieren von Spaltenstatistiken für die AWS Glue Data Catalog-Tabellen bei Bedarf ohne festen Zeitplan ausführen. Diese Option ist nützlich für Ad-hoc-Analysen oder wenn Statistiken sofort berechnet werden müssen.
Folgen Sie diesen Schritten für die On-Demand-Generierung von Spaltenstatistiken im Datenkatalog mithilfe der AWS Glue-Konsole oder der AWS CLI.
- AWS Management Console
-
Generieren von Spaltenstatistiken mit der Konsole
-
Melden Sie sich bei der AWS Glue-Konsole unter https://console.aws.amazon.com/glue/ an.
-
Wählen Sie „Datenkatalog-Tabellen“ aus.
-
Wählen Sie eine Tabelle aus der Liste aus.
-
Wählen Sie im Menü Aktionen die Option Statistiken generieren aus.
Sie können auch Generieren, Generieren bei Bedarf auf der Registerkarte Spaltenstatistiken unten auf der Seite Tabellen auswählen.
Folgen Sie den Schritten 7 bis 11 in Planmäßige Generierung von Spaltenstatistiken, um Spaltenstatistiken für die Tabelle zu generieren.
-
Geben Sie auf der Seite Statistiken generieren die folgenden Optionen an:
-
Alle Spalten – Wählen Sie diese Option aus, um Statistiken für alle Spalten in der Tabelle zu generieren.
-
Ausgewählte Spalten – Wählen Sie diese Option aus, um Statistiken für bestimmte Spalten zu generieren. Sie können die Spalten in der Dropdown-Liste auswählen.
-
IAM-Rolle – Wählen Sie Neue IAM-Rolle erstellen aus, um eine neue Rolle zu erstellen, die über die erforderlichen Berechtigungsrichtlinien verfügt, um die Aufgabe zur Generierung von Spaltenstatistiken auszuführen. Wählen Sie „Berechtigungsdetails anzeigen“ aus, um die Richtlinienerklärung zu überprüfen. Sie können auch eine IAM-Rolle in der Liste auswählen. Weitere Informationen zu den erforderlichen Berechtigungen finden Sie unter Voraussetzungen für die Generierung von Spaltenstatistiken.
AWS Glue übernimmt die Berechtigungen der von Ihnen angegebenen Rolle, um Statistiken zu generieren.
Weitere Informationen zur Bereitstellung von Rollen für AWS Glue finden Sie unter Identitätsbasierte Richtlinien für AWS Glue.
-
(Optional) Wählen Sie als Nächstes eine Sicherheitskonfiguration aus, um für Protokolle die Verschlüsselung im Ruhezustand zu aktivieren.
-
Beispielzeilen – Wählen Sie nur einen bestimmten Prozentsatz der Zeilen aus der Tabelle aus, um Statistiken zu generieren. Der Standardwert ist „Alle Zeilen“. Verwenden Sie die Aufwärts- und Abwärtspfeile, um den Prozentwert zu erhöhen oder zu verringern.
Wir empfehlen, alle Zeilen in die Tabelle aufzunehmen, um genaue Statistiken zu berechnen. Verwenden Sie Beispielzeilen zur Generierung von Spaltenstatistiken nur dann, wenn Näherungswerte akzeptabel sind.
Wählen Sie Statistik generieren aus, um die Aufgabe auszuführen.
- AWS CLI
-
Dieser Befehl löst die Ausführung einer Spaltenstatistikaufgabe für die angegebene Tabelle aus. Sie müssen den Datenbanknamen, den Tabellennamen und eine IAM-Rolle mit Berechtigungen zum Generieren von Statistiken angeben. Optional können Sie Spaltennamen und einen Prozentsatz der Stichprobengröße für die Statistikberechnung angeben.
aws glue start-column-statistics-task-run \
--database-name 'database_name \
--table-name 'table_name' \
--role 'arn:aws:iam::123456789012:role/stats-role' \
--column-name 'col1','col2' \
--sample-size 10.0
Dieser Befehl startet eine Aufgabe zum Generieren von Spaltenstatistiken für die angegebene Tabelle.
Aktualisieren von Spaltenstatistiken bei Bedarf
Das Aufrechterhalten aktueller Spaltenstatistiken ist für den Abfrageoptimierer von entscheidender Bedeutung, um effiziente Ausführungspläne zu erstellen und so eine verbesserte Abfrageleistung, einen geringeren Ressourcenverbrauch und eine insgesamt bessere Systemleistung sicherzustellen. Dieser Prozess ist besonders wichtig nach erheblichen Datenänderungen, wie etwa beim Laden großer Datenmengen oder bei umfangreichen Änderungen, die bestehende Statistiken unbrauchbar machen können.
Sie müssen die Aufgabe Statistik generieren explizit über die AWS Glue-Konsole ausführen, um die Spaltenstatistiken zu aktualisieren. Der Datenkatalog aktualisiert die Statistiken nicht automatisch.
Wenn Sie die AWS Glue-Funktion zur Generierung von Statistiken in der Konsole nicht verwenden, können Sie Spaltenstatistiken mithilfe der API-Operation UpdateColumnStatisticsForTable oder der AWS CLI manuell aktualisieren. Im folgenden Beispiel wird gezeigt, wie Sie Spaltenstatistiken mithilfe von AWS CLI aktualisieren.
aws glue update-column-statistics-for-table --cli-input-json:
{
"CatalogId": "111122223333",
"DatabaseName": "database_name",
"TableName": "table_name",
"ColumnStatisticsList": [
{
"ColumnName": "col1",
"ColumnType": "Boolean",
"AnalyzedTime": "1970-01-01T00:00:00",
"StatisticsData": {
"Type": "BOOLEAN",
"BooleanColumnStatisticsData": {
"NumberOfTrues": 5,
"NumberOfFalses": 5,
"NumberOfNulls": 0
}
}
}
]
}