On-Demand-Generierung von Spaltenstatistiken - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

On-Demand-Generierung von Spaltenstatistiken

Sie können die Aufgabe Spaltenstatistiken für die AWS Glue Data Catalog Tabellentask bei Bedarf ohne festen Zeitplan ausführen. Diese Option ist nützlich für Ad-hoc-Analysen oder wenn Statistiken sofort berechnet werden müssen.

Gehen Sie wie folgt vor, um bei Bedarf Spaltenstatistiken für die Datenkatalogtabellen mithilfe der AWS Glue Konsole oder zu generieren AWS CLI.

AWS-Managementkonsole
Generieren von Spaltenstatistiken mit der Konsole
  1. Melden Sie sich bei der AWS Glue Konsole an unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie „Datenkatalog-Tabellen“ aus.

  3. Wählen Sie eine Tabelle aus der Liste aus.

  4. Wählen Sie im Menü Aktionen die Option Statistiken generieren aus.

    Sie können auch Generieren, Generieren bei Bedarf auf der Registerkarte Spaltenstatistiken unten auf der Seite Tabellen auswählen.

  5. Folgen Sie den Schritten 7 bis 11 in Planmäßige Generierung von Spaltenstatistiken, um Spaltenstatistiken für die Tabelle zu generieren.

  6. Geben Sie auf der Seite Statistiken generieren die folgenden Optionen an:

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
    • Alle Spalten – Wählen Sie diese Option aus, um Statistiken für alle Spalten in der Tabelle zu generieren.

    • Ausgewählte Spalten – Wählen Sie diese Option aus, um Statistiken für bestimmte Spalten zu generieren. Sie können die Spalten in der Dropdown-Liste auswählen.

    • IAM-Rolle – Wählen Sie Neue IAM-Rolle erstellen aus, um eine neue Rolle zu erstellen, die über die erforderlichen Berechtigungsrichtlinien verfügt, um die Aufgabe zur Generierung von Spaltenstatistiken auszuführen. Wählen Sie „Berechtigungsdetails anzeigen“ aus, um die Richtlinienerklärung zu überprüfen. Sie können auch eine IAM-Rolle in der Liste auswählen. Weitere Informationen zu den erforderlichen Berechtigungen finden Sie unter Voraussetzungen für die Generierung von Spaltenstatistiken.

      AWS Glue nimmt die Berechtigungen der Rolle an, die Sie zum Generieren von Statistiken angeben.

      Weitere Informationen zur Bereitstellung von Rollen für AWS Glue finden Sie unter Identitätsbasierte Richtlinien für. AWS Glue.

    • (Optional) Wählen Sie als Nächstes eine Sicherheitskonfiguration aus, um für Protokolle die Verschlüsselung im Ruhezustand zu aktivieren.

    • Beispielzeilen – Wählen Sie nur einen bestimmten Prozentsatz der Zeilen aus der Tabelle aus, um Statistiken zu generieren. Der Standardwert ist „Alle Zeilen“. Verwenden Sie die Aufwärts- und Abwärtspfeile, um den Prozentwert zu erhöhen oder zu verringern.

      Anmerkung

      Wir empfehlen, alle Zeilen in die Tabelle aufzunehmen, um genaue Statistiken zu berechnen. Verwenden Sie Beispielzeilen zur Generierung von Spaltenstatistiken nur dann, wenn Näherungswerte akzeptabel sind.

    Wählen Sie Statistik generieren aus, um die Aufgabe auszuführen.

AWS CLI

Dieser Befehl löst die Ausführung einer Spaltenstatistikaufgabe für die angegebene Tabelle aus. Sie müssen den Datenbanknamen, den Tabellennamen und eine IAM-Rolle mit Berechtigungen zum Generieren von Statistiken angeben. Optional können Sie Spaltennamen und einen Prozentsatz der Stichprobengröße für die Statistikberechnung angeben.

aws glue start-column-statistics-task-run \ --database-name 'database_name \ --table-name 'table_name' \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --column-name 'col1','col2' \ --sample-size 10.0

Dieser Befehl startet eine Aufgabe zum Generieren von Spaltenstatistiken für die angegebene Tabelle.

Aktualisieren von Spaltenstatistiken bei Bedarf

Die Pflege von up-to-date Spaltenstatistiken ist für den Abfrageoptimierer von entscheidender Bedeutung, um effiziente Ausführungspläne zu erstellen und so eine verbesserte Abfrageleistung, einen geringeren Ressourcenverbrauch und eine bessere Gesamtsystemleistung sicherzustellen. Dieser Prozess ist besonders wichtig nach erheblichen Datenänderungen, wie etwa beim Laden großer Datenmengen oder bei umfangreichen Änderungen, die bestehende Statistiken unbrauchbar machen können.

Sie müssen die Aufgabe Statistik generieren explizit von der AWS Glue Konsole aus ausführen, um die Spaltenstatistiken zu aktualisieren. Der Datenkatalog aktualisiert die Statistiken nicht automatisch.

Wenn Sie die Funktion zur Generierung AWS Glue von Statistiken in der Konsole nicht verwenden, können Sie die Spaltenstatistiken mithilfe der UpdateColumnStatisticsForTableAPI-Operation oder manuell aktualisieren AWS CLI. Im folgenden Beispiel wird gezeigt, wie Sie Spaltenstatistiken mithilfe von AWS CLI aktualisieren.

aws glue update-column-statistics-for-table --cli-input-json: { "CatalogId": "111122223333", "DatabaseName": "database_name", "TableName": "table_name", "ColumnStatisticsList": [ { "ColumnName": "col1", "ColumnType": "Boolean", "AnalyzedTime": "1970-01-01T00:00:00", "StatisticsData": { "Type": "BOOLEAN", "BooleanColumnStatisticsData": { "NumberOfTrues": 5, "NumberOfFalses": 5, "NumberOfNulls": 0 } } } ] }