Zugreifen auf Tabellendaten - Amazon Simple Storage Service

Zugreifen auf Tabellendaten

Es gibt mehrere Möglichkeiten, auf Tabellen in Amazon S3-Tabellen-Buckets zuzugreifen. Sie können Tabellen mithilfe von Amazon SageMaker Lakehouse in AWS-Analytikservices integrieren oder direkt über den Amazon-S3-Tables-Iceberg REST-Endpunkt oder den Amazon S3 Tables Catalog für Apache Iceberg auf Tabellen zugreifen. Welche Zugriffsmethode Sie verwenden, hängt von Ihrer Katalogeinrichtung, Ihrem Verwaltungsmodell und Ihren Anforderungen an die Zugriffskontrolle ab. Im Folgenden finden Sie eine Übersicht über diese Zugriffsmethoden.

Amazon-SageMaker-Lakehouse-Integration

Dies ist die empfohlene Zugriffsmethode für die Arbeit mit Tabellen in S3-Tabellen-Buckets. Die Integration bietet Ihnen ein einheitliches Tabellenmanagement, eine zentrale Steuerung und eine differenzierte Zugriffskontrolle für mehrere AWS-Analytikservices. Nach der Integration können Sie Tabellen in Services wie Athena und Amazon Redshift abfragen.

Direkter Zugriff

Verwenden Sie diese Methode, wenn Sie mit AWS Partner Network-(APN-) Katalogimplementierungen oder benutzerdefinierten Katalogimplementierungen arbeiten müssen oder wenn Sie nur grundlegende Lese-/Schreiboperationen für Tabellen innerhalb eines einzelnen Tabellen-Buckets ausführen müssen.

Anmerkung

Für den Zugriff auf Tabellen benötigt die von Ihnen verwendete IAM-Identität Zugriff auf Ihre Tabellenressourcen und S3-Tables-Aktionen. Weitere Informationen finden Sie unter Zugriffsverwaltung für S3 Tables.

Zugreifen auf Tabellen über die Amazon SageMaker Lakehouse-Integration

Sie können S3-Tabellen-Buckets in Amazon SageMaker Lakehouse integrieren, um über AWS-Analytikservices wie Amazon Athena, Amazon Redshift und Quick Suite auf Tabellen zuzugreifen. Amazon SageMaker Lakehouse vereinheitlicht Ihre Daten aus Amazon-S3-Data-Lakes und Amazon Redshift-Data-Warehouses, sodass Sie Analytik-, Machine Learning (ML)- und generative KI-Anwendungen auf einer einzigen Datenkopie erstellen können. Die Integration füllt die AWS Glue Data Catalog mit Ihren Tabellenressourcen und bündelt den Zugriff auf diese Ressourcen mit AWS Lake Formation. Weitere Informationen zur Integration finden Sie unter Integrieren von Amazon S3 Tables mit AWS-Analytikservices.

Die Integration ermöglicht eine differenzierte Zugriffskontrolle über AWS Lake Formation für zusätzliche Sicherheit. Lake Formation verwendet eine Kombination aus seinem eigenen Berechtigungsmodell und dem IAM-Berechtigungsmodell, um den Zugriff auf Tabellenressourcen und zugrunde liegende Daten zu steuern. Das bedeutet, dass eine Anfrage für den Zugriff auf Ihre Tabelle die Berechtigungsprüfungen sowohl von IAM als auch von Lake Formation bestehen muss. Weitere Informationen finden Sie unter Übersicht über Lake-Formation-Berechtigungen im AWS Lake Formation-Entwicklerhandbuch.

Die folgenden AWS-Analytikservices können über diese Integration auf Tabellen zugreifen:

Über den AWS GlueIceberg REST-Endpunkt auf Tabellen zugreifen

Sobald Ihre S3-Tabellen-Buckets in Amazon SageMaker Lakehouse integriert sind, können Sie den AWS Glue Iceberg REST-Endpunkt auch verwenden, um eine Verbindung zu S3-Tabellen von Abfrage-Engines von Drittanbietern herzustellen, die Iceberg unterstützen. Weitere Informationen finden Sie unter Zugreifen auf Amazon-S3-Tabellen über den AWS GlueIceberg REST-Endpunkt.

Wir empfehlen, den AWS Glue Iceberg REST-Endpunkt zu verwenden, wenn Sie auf Tabellen von Spark, PyIceberg, oder anderen Iceberg-kompatiblen Clients zugreifen möchten.

Die folgenden Clients können direkt über den AWS Glue Iceberg REST-Endpunkt auf Tabellen zugreifen:

  • Jeder Iceberg Client, einschließlich Spark, PyIceberg und mehr.

Direktes Zugreifen auf Tabellen

Über Methoden, die die Verwaltung von S3-Tables mit Ihren Apache Iceberg-Analytikanwendungen verbinden, können Sie direkt von Open-Source-Abfrage-Engines aus auf Tabellen zugreifen. Es gibt zwei Direktzugriffsmethoden: den Amazon-S3-Tables-Iceberg REST Endpunkt oder den Amazon S3 Tables Catalog für Apache Iceberg. Der REST-Endpunkt wird empfohlen.

Wir empfehlen den Direktzugriff, wenn Sie in selbstverwalteten Katalogimplementierungen auf Tabellen zugreifen oder nur grundlegende Lese-/Schreibvorgänge für Tabellen in einem einzelnen Tabellen-Bucket ausführen müssen. Für andere Zugriffsszenarien empfehlen wir die Amazon SageMaker Lakehouse-Integration.

Der direkte Zugriff auf Tabellen wird entweder über identitätsbasierte IAM-Richtlinien oder über ressourcenbasierte Richtlinien verwaltet, die an Tabellen und Tabellen-Buckets angehängt sind. Sie müssen Lake Formation-Berechtigungen für Tabellen nicht verwalten, wenn Sie direkt auf sie zugreifen.

Zugreifen auf Tabellen über den Amazon S3 Tables Iceberg REST-Endpunkt

Sie können den Amazon S3 Tables Iceberg REST-Endpunkt verwenden, um direkt von allen Iceberg REST-kompatiblen Clients über HTTP-Endpunkte auf Ihre Tabellen zuzugreifen. Weitere Informationen finden Sie unter Zugreifen auf Tabellen über den Amazon S3 Tables Iceberg REST-Endpunkt.

Die folgenden AWS-Analytikservices und Abfrage-Engines können über den Amazon S3 Tables Iceberg REST-Endpunkt direkt auf Tabellen zugreifen:

Unterstützte Engines

Direkter Zugriff auf Tabellen über den Amazon S3 Tables Catalog für Apache Iceberg

Sie können auch direkt von Abfrage-Engines wie Apache Spark aus auf Tabellen zugreifen, z. B. mithilfe des S3-Tables-Client-Katalogs. Weitere Informationen finden Sie unter Zugreifen auf Amazon-S3-Tabellen mit dem Amazon-S3-Tables-Katalog für Apache Iceberg. S3 empfiehlt jedoch, den Amazon S3 Tables Iceberg REST-Endpunkt für den direkten Zugriff zu verwenden, da dieser mehr Anwendungen unterstützt, ohne dass sprach- oder maschinenspezifischer Code erforderlich ist.

Die folgenden Abfrage-Engines können über den Client-Katalog direkt auf Tabellen zugreifen: