Herstellen einer Verbindung zum Datenkatalog mit dem REST-Erweiterungsendpunkt von AWS Glue Iceberg - AWS Glue

Herstellen einer Verbindung zum Datenkatalog mit dem REST-Erweiterungsendpunkt von AWS Glue Iceberg

Der REST-Erweiterungsendpunkt von AWS Glue Iceberg bietet zusätzliche APIs, die in der REST-Spezifikation von Apache Iceberg nicht enthalten sind, und bietet serverseitige Scanplanungsfunktionen. Diese zusätzlichen APIs werden verwendet, wenn Sie auf Tabellen zugreifen, die im von Amazon Redshift Redshift verwalteten Speicher gespeichert sind. Auf den Endpunkt kann über eine Anwendung zugegriffen werden, die AWS Glue Data Catalog-Erweiterungen von Apache Iceberg verwendet.

Endpunktkonfiguration – Über den Service-Endpunkt kann auf einen Katalog mit Tabellen im von Redshift verwalteten Speicher zugegriffen werden. Die regionsspezifischen Endpunkte finden Sie im Referenzhandbuch zu den AWS Glue-Service-Endpunkten. Wenn Sie beispielsweise eine Verbindung zu AWS Glue in der Region us-east-1 herstellen, müssen Sie die Eigenschaft „Endpunkt-URI“ wie folgt konfigurieren:

Endpoint : https://glue.us-east-1.amazonaws.com/extensions
catalog_name = "myredshiftcatalog"
aws_account_id = "123456789012"
aws_region = "us-east-1"
spark = SparkSession.builder \
    .config("spark.sql.defaultCatalog", catalog_name) \
    .config(f"spark.sql.catalog.{catalog_name}", "org.apache.iceberg.spark.SparkCatalog") \
    .config(f"spark.sql.catalog.{catalog_name}.type", "glue") \
    .config(f"spark.sql.catalog.{catalog_name}.glue.id", "{123456789012}:redshiftnamespacecatalog/redshiftdb") \
    .config("spark.sql.extensions","org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions") \
    .getOrCreate()