Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verdichtungsoptimierer aktivieren
Sie können die AWS Glue Konsole oder AWS API verwenden AWS CLI, um die Komprimierung für Ihre Apache Iceberg-Tabellen im Datenkatalog zu aktivieren. AWS Glue Für neue Tabellen können Sie Apache Iceberg als Tabellenformat auswählen und die Verdichtung beim Erstellen der Tabellen aktivieren. Für neue Tabellen ist die Verdichtung standardmäßig deaktiviert.
- Console
-
Aktivieren der Verdichtung
-
Öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/und melden Sie sich als Data Lake-Administrator, als Tabellenersteller oder als Benutzer an, dem die lakeformation:GetDataAccess
Berechtigungen glue:UpdateTable
und für die Tabelle erteilt wurden.
-
Wählen Sie im Navigationsbereich unter Datenkatalog die Option Tabellen aus.
Wählen Sie auf der Seite Tabellen eine Tabelle im geöffneten Tabellenformat aus, für die Sie die Komprimierung aktivieren möchten. Wählen Sie dann im Menü Aktionen die Option Optimierung und dann Aktivieren aus.
Sie können die Komprimierung auch aktivieren, indem Sie auf der Seite mit den Tabellendetails die Registerkarte Tabellenoptimierung auswählen. Wählen Sie im unteren Bereich der Seite die Registerkarte Tabellenoptimierung und dann Verdichtung aktivieren aus.
Die Option Optimierung aktivieren ist auch verfügbar, wenn Sie eine neue Iceberg-Tabelle im Datenkatalog erstellen.
-
Wählen Sie auf der Seite Optimierung aktivieren unter Optimierungsoptionen die Option Komprimierung aus.
-
Wählen Sie als Nächstes eine IAM-Rolle aus der Drop-down-Liste mit den im Abschnitt angegebenen Berechtigungen aus. Voraussetzungen für die Tabellenoptimierung
Sie können auch die Option Neue IAM-Rolle erstellen auswählen, um eine benutzerdefinierte Rolle mit den erforderlichen Berechtigungen zum Ausführen der Komprimierung zu erstellen.
Gehen Sie wie folgt vor, um eine vorhandene IAM-Rolle zu aktualisieren:
-
Um die Berechtigungsrichtlinie für die IAM-Rolle zu aktualisieren, wechseln Sie in der IAM-Konsole zu der IAM-Rolle, die zum Ausführen der Verdichtung verwendet wird.
-
Wählen Sie im Abschnitt Berechtigungen hinzufügen die Option Richtlinie erstellen aus. Erstellen Sie im neu geöffneten Browserfenster eine neue Richtlinie, die Sie mit Ihrer Rolle verwenden möchten.
-
Wählen Sie auf der Seite Richtlinie erstellen die JSON
Registerkarte aus. Kopieren Sie den in den Voraussetzungen angezeigten JSON-Code in das Feld Richtlinien-Editor.
-
Wenn Sie Sicherheitsrichtlinien-Konfigurationen haben, bei denen der Iceberg-Tabellenoptimierer von einer bestimmten Virtual Private Cloud (VPC) aus auf Amazon S3 S3-Buckets zugreifen muss, stellen Sie eine AWS Glue Netzwerkverbindung her oder verwenden Sie eine bestehende.
Wenn Sie noch keine AWS Glue VPC-Verbindung eingerichtet haben, erstellen Sie eine neue, indem Sie die Schritte im Abschnitt Verbindungen für Konnektoren erstellen mithilfe der AWS Glue Konsole oder des AWS CLI/SDKs ausführen.
-
Wählen Sie eine Verdichtungsstrategie. Die verfügbaren Optionen sind:
Binpack — Binpack ist die Standard-Komprimierungsstrategie in Apache Iceberg. Sie kombiniert kleinere Datendateien zu größeren, um eine optimale Leistung zu erzielen.
-
Sortieren — Bei der Sortierung in Apache Iceberg handelt es sich um eine Datenorganisationstechnik, bei der Informationen innerhalb von Dateien auf der Grundlage bestimmter Spalten gruppiert werden. Dadurch wird die Abfrageleistung erheblich verbessert, da die Anzahl der zu verarbeitenden Dateien reduziert wird. Sie definieren die Sortierreihenfolge in den Metadaten von Iceberg mithilfe des Sortierreihenfolgenfeldes. Wenn mehrere Spalten angegeben sind, werden die Daten in der Reihenfolge sortiert, in der die Spalten in der Sortierreihenfolge erscheinen, sodass Datensätze mit ähnlichen Werten zusammen in Dateien gespeichert werden. Mit der Strategie zur Sortierung und Komprimierung wird die Optimierung noch weiter vorangetrieben, indem Daten in allen Dateien innerhalb einer Partition sortiert werden.
Z-Reihenfolge — Die Z-Reihenfolge ist eine Möglichkeit, Daten zu organisieren, wenn Sie nach mehreren Spalten mit gleicher Wichtigkeit sortieren müssen. Im Gegensatz zur herkömmlichen Sortierung, bei der eine Spalte gegenüber anderen priorisiert wird, verleiht die Z-Reihenfolge jeder Spalte ein ausgewogenes Gewicht, sodass Ihre Abfrage-Engine bei der Suche nach Daten weniger Dateien liest.
Bei dieser Technik werden die Binärziffern von Werten aus verschiedenen Spalten zusammengefügt. Wenn Sie beispielsweise die Zahlen 3 und 4 aus zwei Spalten haben, werden sie bei der Z-Reihenfolge zuerst in Binärzahlen umgewandelt (3 wird zu 011 und 4 wird zu 100). Dann werden diese Ziffern verschachtelt, um einen neuen Wert zu erstellen: 011010. Durch diese Verschachtelung entsteht ein Muster, das zusammengehörige Daten physisch nahe beieinander hält.
Die Z-Reihenfolge ist besonders effektiv bei mehrdimensionalen Abfragen. Beispielsweise kann eine Kundentabelle, die nach Einkommen, Bundesland und Postleitzahl Z-sortiert ist, im Vergleich zur hierarchischen Sortierung eine bessere Leistung bieten, wenn Abfragen über mehrere Dimensionen hinweg durchgeführt werden. Diese Organisation ermöglicht Abfragen, die auf bestimmte Kombinationen aus Einkommen und geografischem Standort abzielen, um schnell relevante Daten zu finden und gleichzeitig unnötige Dateiscans zu minimieren.
-
Wählen Sie Optimierung aktivieren.
- AWS CLI
-
Im folgenden Beispiel wird gezeigt, wie Sie die Verdichtung aktivieren. Ersetzen Sie die Konto-ID durch eine gültige AWS Konto-ID. Ersetzen Sie den Datenbanknamen und den Tabellennamen durch die tatsächlichen Tabellen- und Datenbanknamen in Iceberg. Ersetzen Sie den roleArn
durch den AWS -Ressourcennamen (ARN) der IAM-Rolle und den Namen der IAM-Rolle, die über die erforderlichen Berechtigungen zum Ausführen der Verdichtung verfügt. Sie können die Verdichtungsstrategie sort
durch andere unterstützte Strategien wie z-order
oder binpack
ersetzen.
bestellen“ je nach Ihren Anforderungen.
aws glue create-table-optimizer \
--catalog-id 123456789012
\
--database-name iceberg_db
\
--table-name iceberg_table
\
--table-optimizer-configuration '{
"roleArn": "arn:aws:iam::123456789012:role/optimizer_role
",
"enabled": true,
"vpcConfiguration": {"glueConnectionName": "glue_connection_name"},
"compactionConfiguration": {
"icebergConfiguration": {"strategy": "sort
"}
}
}'\
--type compaction
- AWS API
-
Rufen Sie die Operation CreateTableOptimizer auf, um die Verdichtung für eine Tabelle zu aktivieren.
Nachdem Sie die Komprimierung aktiviert haben, werden auf der Registerkarte „Tabellenoptimierung“ die folgenden Verdichtungsdetails angezeigt, sobald der Verdichtungslauf abgeschlossen ist:
- Startzeit
-
Der Zeitpunkt, zu dem der Verdichtungsvorgang im Datenkatalog gestartet wurde. Der Wert ist ein Zeitstempel in UTC-Zeit.
- Endzeit
-
Der Zeitpunkt, zu dem der Verdichtungsvorgang in Data Catalog endete. Der Wert ist ein Zeitstempel in UTC-Zeit.
- Status
-
Der Status des Verdichtungslaufs. Die Werte sind „Erfolgreich“ oder „Fehlgeschlagen“.
- Komprimierte Dateien
Gesamtzahl der komprimierten Dateien.
- Komprimierte Bytes
-
Gesamtzahl der komprimierten Byte.