Füllen und Verwalten von Transaktionstabellen
Apache Iceberg
Sie können Iceberg-, Hudi- und Delta-Lake-Tabellen im AWS Glue Data Catalog mit den folgenden Methoden füllen:
-
AWS-Glue-Crawler; – AWS-Glue-Crawler können automatisch Iceberg-, Hudi- und Delta-Lake-Tabellenmetadaten im Data Catalog erkennen und füllen. Weitere Informationen finden Sie unter Verwenden von Crawlern zum Auffüllen des Datenkatalogs .
-
AWS Glue-ETL-Aufträge – Sie können ETL-Aufträge erstellen, um Daten in Iceberg-, Hudi- und Delta-Lake-Tabellen zu schreiben und deren Metadaten im Data Catalog aufzufüllen. Weitere Informationen finden Sie unter Verwenden von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen.
-
AWS Glue-Konsole, AWS Lake Formation-Konsole AWS CLI oder API – Sie können die AWS Glue-Konsole, Lake-Formation-Konsole oder die API verwenden, um Iceberg-Tabellendefinitionen im Data Catalog zu erstellen und zu verwalten.
Themen
Erstellen von Apache-Iceberg-Tabellen
Sie können Apache-Iceberg-Tabellen erstellen, die das Apache-Parquet-Datenformat im AWS Glue Data Catalog verwenden, wobei sich die Daten in Amazon S3 befinden. Eine Tabelle im Data Catalog ist die Metadatendefinition, die die Daten in einem Datenspeicher repräsentiert. AWS Glue erstellt standardmäßig Iceberg-v2-Tabellen. Den Unterschied zwischen v1- und v2-Tabellen finden Sie unter Formatversionsänderungen
Apache Iceberg
Sie können AWS Glue oder die Lake-Formation-Konsole oder den CreateTable-Vorgang in der AWS Glue-API verwenden, um eine Iceberg-Tabelle im Datenkatalog zu erstellen. Weitere Informationen finden Sie unter CreateTable-Aktion (Python: create_table).
Wenn Sie eine Iceberg-Tabelle im Data Catalog erstellen, müssen Sie das Tabellenformat und den Metadaten-Dateipfad in Amazon S3 angeben, um Lese- und Schreibvorgänge durchführen zu können.
Sie können Lake Formation verwenden, um Ihre Iceberg-Tabelle mithilfe detaillierter Zugriffskontrollberechtigungen zu sichern, wenn Sie den Amazon-S3-Datenspeicherort bei AWS Lake Formation registrieren. Für Quelldaten in Amazon S3 und Metadaten, die nicht bei Lake Formation registriert sind, wird der Zugriff durch IAM-Berechtigungsrichtlinien für Amazon-S3- und AWS Glue-Aktionen bestimmt. Weitere Informationen finden Sie unter Verwalten von Berechtigungen.
Anmerkung
Data Catalog unterstützt nicht das Erstellen von Partitionen und das Hinzufügen von Iceberg-Tabelleneigenschaften.
Voraussetzungen
Um Iceberg-Tabellen im Data Catalog zu erstellen und Lake-Formation-Datenzugriffsberechtigungen einzurichten, müssen Sie die folgenden Anforderungen erfüllen:
-
Berechtigungen, die zum Erstellen von Iceberg-Tabellen ohne die bei Lake Formation registrierten Daten erforderlich sind.
Zusätzlich zu den Berechtigungen, die zum Erstellen der Tabelle im Data Catalog erforderlich sind, benötigt der Tabellenersteller folgende Berechtigungen:
s3:PutObjectin Ressource arn:aws:s3:::{bucketName}-
s3:GetObjectin Ressource arn:aws:s3:::{bucketName} -
s3:DeleteObjectin Ressource arn:aws:s3:::{bucketName}
-
Berechtigungen, die zum Erstellen von Iceberg-Tabellen mit den bei Lake Formation registrierten Daten erforderlich sind.
Um Lake Formation zur Verwaltung und Sicherung der Daten in Ihrem Data Lake zu verwenden, registrieren Sie Ihren Amazon-S3-Speicherort, der die Daten für Tabellen enthält, bei Lake Formation. Auf diese Weise kann Lake Formation Anmeldeinformationen an AWS--Analyse-Services wie Athena, Redshift Spectrum und Amazon EMR weitergeben, um auf Daten zuzugreifen. Weitere Informationen zur Registrierung eines Amazon-S3-Speicherorts finden Sie unter Hinzufügen eines Amazon-S3-Speicherorts zu Ihrem Data Lake.
Ein Principal, der die zugrunde liegenden Daten liest und schreibt, die bei Lake Formation registriert sind, benötigt folgende Berechtigungen:
-
lakeformation:GetDataAccess -
DATA_LOCATION_ACCESSEin Principal, der über Berechtigungen zum Speichern von Daten für einen Standort verfügt, hat auch Standortberechtigungen für alle untergeordneten Standorte.
Weitere Informationen zu Zugriffsberechtigungen für Daten finden Sie unter Zugrundeliegende Datenzugriffskontrolle.
-
Um die Komprimierung zu aktivieren, muss der Service eine IAM-Rolle übernehmen, die über Berechtigungen zum Aktualisieren von Tabellen im Data Catalog verfügt. Details hierzu finden Sie unter Voraussetzungen für die Tabellenoptimierung
Erstellen einer Iceberg-Tabelle
Sie können Iceberg-v1- und Iceberg-v2-Tabellen mit AWS Glue oder der Lake-Formation-Konsole oder AWS Command Line Interface erstellen, wie auf dieser Seite dokumentiert. Sie können Iceberg-Tabellen auch mit dem AWS-Glue-Crawler erstellen. Weitere Informationen finden Sie unter Data Catalog und Crawler im AWS Glue-Entwicklerhandbuch.
So erstellen Sie eine Iceberg-Tabelle