

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Optimieren der Abfrageleistung für Iceberg-Tabellen
<a name="iceberg-column-statistics"></a>

Apache Iceberg ist ein leistungsstarkes Open-Table-Format für riesige analytische Datensätze. AWS Glue unterstützt die Berechnung und Aktualisierung der Anzahl unterschiedlicher Werte (NDVs) für jede Spalte in Iceberg-Tabellen. Diese Statistiken können Dateningenieuren und Wissenschaftlern, die mit großen Datensätzen arbeiten, eine bessere Abfrageoptimierung, Datenverwaltung und Leistungseffizienz ermöglichen.

 AWS Glue schätzt die Anzahl der unterschiedlichen Werte in jeder Spalte der Iceberg-Tabelle und speichert sie [in Puffin-Dateien](https://iceberg.apache.org/puffin-spec/) auf Amazon S3, die mit Iceberg-Tabellen-Snapshots verknüpft sind. Puffin ist ein Iceberg-Dateiformat, das für die Speicherung von Metadaten wie Indizes, Statistiken und Skizzen entwickelt wurde. Die Speicherung von Skizzen in Puffin-Dateien, die mit Snapshots verknüpft sind, gewährleistet die Transaktionskonsistenz und Aktualität der NDV-Statistiken.

Sie können konfigurieren, dass die Aufgabe zur Generierung von Spaltenstatistiken über die Konsole oder ausgeführt wird. AWS Glue AWS CLI Wenn Sie den Prozess starten, AWS Glue wird ein Spark-Job im Hintergrund gestartet und die AWS Glue Tabellenmetadaten im Datenkatalog aktualisiert. Sie können Spaltenstatistiken über die AWS Glue Konsole AWS CLI oder durch Aufrufen des [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)API-Vorgangs anzeigen.

**Anmerkung**  
Wenn Sie AWS Lake Formation Berechtigungen verwenden, um den Zugriff auf die Tabelle zu steuern, erfordert die Rolle, die die Aufgabe für die Spaltenstatistik einnimmt, vollständigen Tabellenzugriff, um Statistiken zu generieren.

**Topics**
+ [Voraussetzungen für die Generierung von Spaltenstatistiken](iceberg-column-stats-prereqs.md)
+ [Generieren von Spaltenstatistiken für Iceberg-Tabellen](iceberg-generate-column-stats.md)
+ [Weitere Informationen finden Sie auch unter](#see-also-iceberg-stats)

# Voraussetzungen für die Generierung von Spaltenstatistiken
<a name="iceberg-column-stats-prereqs"></a>

Um Spaltenstatistiken für Iceberg-Tabellen zu generieren oder zu aktualisieren, übernimmt die Statistikgenerierungsaufgabe in Ihrem AWS Identity and Access Management Namen eine (IAM-) Rolle. Basierend auf den der Rolle erteilten Berechtigungen kann die Aufgabe zur Generierung von Spaltenstatistiken die Daten aus dem Amazon-S3-Datenspeicher lesen.

Wenn Sie die Aufgabe zur Generierung von Spaltenstatistiken konfigurieren, AWS Glue können Sie eine Rolle erstellen, die die `AWSGlueServiceRole` AWS verwaltete Richtlinie sowie die erforderliche Inline-Richtlinie für die angegebene Datenquelle umfasst. 

Wenn Sie eine vorhandene Rolle für das Generieren von Spaltenstatistiken angeben, stellen Sie sicher, dass dieser die `AWSGlueServiceRole`-Richtlinie oder eine gleichwertige Version dieser Richtlinie (oder eine reduzierte Version) sowie die erforderlichen Inline-Richtlinien enthält.

Weitere Informationen zu den erforderlichen Berechtigungen finden Sie unter [Voraussetzungen für die Generierung von Spaltenstatistiken](column-stats-prereqs.md). 

# Generieren von Spaltenstatistiken für Iceberg-Tabellen
<a name="iceberg-generate-column-stats"></a>

Gehen Sie wie folgt vor, um einen Zeitplan für die Generierung von Statistiken im Datenkatalog mithilfe der AWS Glue Konsole AWS CLI oder oder des **StartColumnStatisticsTaskRun**Vorgangs zu konfigurieren.

**Generieren von Spaltenstatistiken**

1. Melden Sie sich bei der AWS Glue Konsole an unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Wählen Sie unter „Datenkatalog“ die Option **Tabellen** aus.

1. Wählen Sie eine Iceberg-Tabelle aus der Liste aus. 

1. Wählen Sie im Menü **Aktionen** die Option **Spaltenstatistiken**, **Auf Abruf generieren** aus.

   Sie können auch im unteren Bereich der Seite **Tabellen** auf der Registerkarte **Spaltenstatistiken** die Schaltfläche **Statistik generieren** auswählen.

1. Geben Sie auf der Seite **Statistiken generieren** die Details zur Statistikgenerierung an. Folgen Sie den Schritten 6–11 im Abschnitt [Planmäßige Generierung von Spaltenstatistiken](generate-column-stats.md), um einen Zeitplan für die Statistikgenerierung für Iceberg-Tabellen zu konfigurieren. 

   Sie können sich auch dafür entscheiden, Spaltenstatistiken bei Bedarf zu generieren, indem Sie den Anweisungen unter [On-Demand-Generierung von Spaltenstatistiken](column-stats-on-demand.md) folgen.
**Anmerkung**  
Die Probenahmeoption ist für Iceberg-Tabellen nicht verfügbar.

   AWS Glue berechnet die Anzahl der unterschiedlichen Werte für jede Spalte der Iceberg-Tabelle in einer neuen Puffin-Datei, die an die angegebene Snapshot-ID an Ihrem Amazon S3-Standort übergeben wurde.

## Weitere Informationen finden Sie auch unter
<a name="see-also-iceberg-stats"></a>
+ [Anzeigen von Spaltenstatistiken](view-column-stats.md)
+ [Anzeigen von Spaltenstatistik-Aufgabenläufen](view-stats-run.md)
+ [Beenden des Spaltenstatistik-Aufgabenlaufs](stop-stats-run.md)
+ [Löschen von Spaltenstatistiken](delete-column-stats.md)