Optimierung der Verdichtung
Die Amazon-S3-Data-Lakes, die offene Tabellenformate wie Apache Iceberg verwenden, speichern Daten als S3-Objekte. Tausende kleiner Amazon-S3-Objekte in einer Data-Lake-Tabelle erhöhen den Metadaten-Overhead und beeinträchtigen die Leseleistung. AWS Glue Data Catalog bietet eine verwaltete Verdichtung für Iceberg-Tabellen, bei der kleine Objekte zu größeren verdichtet werden, um eine bessere Leseleistung durch AWS-Analytikservices wie Amazon Athena und Amazon EMR sowie AWS Glue-ETL-Aufträge zu erzielen. Der Datenkatalog führt die Verdichtung durch, ohne gleichzeitige Abfragen zu stören, und unterstützt die Verdichtung nur für Tabellen im Parquet-Format.
Der Tabellenoptimierer überwacht laufend Tabellenpartitionen und startet den Verdichtungsprozess, wenn der Schwellenwert für die Anzahl und Größe von Dateien überschritten wird.
Im Datenkatalog beginnt der Verdichtungsprozess, wenn eine Tabelle oder eine ihrer Partitionen mehr als 100 Dateien enthält. Jede Datei muss kleiner als 75 % der Zieldateigröße sein. Die Zieldateigröße wird durch die Tabelleneigenschaft write.target-file-size-bytes bestimmt, die standardmäßig 512 MB beträgt, sofern sie nicht explizit festgelegt ist.
Einschränkungen finden Sie unter Unterstützte Formate und Einschränkungen für die verwaltete Datenverdichtung .