搭配 Amazon Redshift 使用 Apache Iceberg 資料表 - Amazon Redshift

自 2025 年 11 月 1 日起,Amazon Redshift 將不再支援建立新的 Python UDFs。如果您想要使用 Python UDFs,請在該日期之前建立 UDFs。現有的 Python UDFs將繼續如常運作。如需詳細資訊,請參閱部落格文章

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

搭配 Amazon Redshift 使用 Apache Iceberg 資料表

注意

若要在搭配 Amazon Redshift 使用 Apache Iceberg 資料表時獲得最佳效能,您必須為使用 的資料表產生資料欄統計資料 AWS Glue。如需詳細資訊,請參閱《 AWS Glue 開發人員指南》中的產生 Iceberg 資料表的資料欄統計資料

本主題說明如何將 Apache Iceberg 格式的資料表與 Redshift Spectrum 或 Redshift Serverless 搭配使用。Apache Iceberg 是適用於大型分析資料表的高效能格式。

您可以使用 Redshift Spectrum 或 Redshift Serverless 查詢 AWS Glue Data Catalog中編目的 Apache Iceberg 資料表。Apache Iceberg 是一種用於資料湖的開放原始碼資料表格式。如需詳細資訊,請參閱 Apache Iceberg 文件中的 Apache Iceberg

Amazon Redshift 為查詢 Apache Iceberg 資料表提供交易一致性。您可以在使用 Amazon Redshift 執行查詢時,使用符合 ACID (原子性、一致性、隔離、耐久性) 的服務 (例如 Amazon Athena 和 Amazon EMR) 來操控資料表中的資料。Amazon Redshift 可以使用 Apache Iceberg 中繼資料中儲存的表格統計資料來最佳化查詢計劃並減少查詢處理期間的檔案掃描。使用 Amazon Redshift SQL,您可以將 Redshift 資料表與資料湖資料表結合在一起。

若要開始將 Iceberg 資料表與 Amazon Redshift 搭配使用:

  1. 使用 Amazon Athena 或 Amazon EMR 等相容服務,在 AWS Glue Data Catalog 資料庫上建立 Apache Iceberg 資料表。若要使用 Athena 建立 Iceberg 資料表,請參閱《Amazon Athena 使用者指南》中的使用 Apache Iceberg 資料表

  2. 使用可存取資料湖的關聯 IAM 角色建立 Amazon Redshift 叢集或 Redshift Serverless 工作群組。如需如何建立叢集或工作群組的資訊,請參閱《Amazon Redshift 入門指南》中的開始使用 Amazon Redshift 佈建的資料倉儲開始使用 Redshift Serverless 資料倉儲

  3. 使用查詢編輯器 v2 或第三方 SQL 用戶端連線到您的叢集或工作群組。如需有關如何使用查詢編輯器 v2 連線的資訊,請參閱《Amazon Redshift 管理指南》中的使用 SQL 用戶端工具連線至 Amazon Redshift 資料倉儲

  4. 在 Amazon Redshift 資料庫中為包含 Iceberg 資料表的特定資料目錄資料庫建立外部結構描述。如需建立外部結構描述的相關資訊,請參閱Amazon Redshift Spectrum 中的外部結構描述

  5. 執行 SQL 查詢以存取您建立的外部結構描述中的 Iceberg 資料表。

將 Apache Iceberg 資料表與 Amazon Redshift 搭配使用時的注意事項

將 Amazon Redshift 與 Iceberg 資料表結合使用時,請考慮以下事項:

  • Iceberg 版本支援 - Amazon Redshift 支援對以下版本的 Iceberg 資料表執行查詢:

    • 版本 1 定義如何使用不可變資料檔案管理大型分析表。

    • 版本 2 增加支援資料列層級更新和刪除的功能,同時保持現有資料檔案不變,並使用刪除檔案來處理資料表資料變更。

    有關版本 1 和版本 2 資料表之間的區別,請參閱 Apache Iceberg 文件中的格式版本變更

  • 僅限查詢 - Amazon Redshift 支援 Apache Iceberg 資料表的唯讀存取。它支援交易一致的選擇查詢。您可以使用 Amazon Athena 等服務來定義和更新 AWS Glue Data Catalog中 Iceberg 資料表的結構描述。

  • 新增分割區 - 您不需要為 Apache Iceberg 資料表手動新增分割區。Amazon Redshift 會自動偵測 Apache Iceberg 資料表中的新分割區,而且不需要手動操作即可更新資料表定義中的分割區。分割區規格中的任何變更也會自動套用至您的查詢,而無需任何使用者介入。

  • 將 Iceberg 資料擷取至 Amazon Redshift - 您可以使用 INSERT INTO 或 CREATE TABLE AS 命令,將資料從 Iceberg 資料表匯入本機 Amazon Redshift 資料表。您目前無法使用 COPY 命令將 Apache Iceberg 資料表的內容擷取至本機 Amazon Redshift 資料表。

  • 具體化視觀表 - 您可以在 Apache Iceberg 資料表上建立具體化視觀表,就像 Amazon Redshift 中的任何其他外部資料表一樣。其他資料湖資料表格式的考量相同,也適用於 Apache Iceberg 資料表。目前不支援資料湖資料表上的自動查詢重寫和自動具體化檢視。

  • AWS Lake Formation 精細存取控制 – Amazon Redshift 支援 Apache Iceberg 資料表上的 AWS Lake Formation 精細存取控制。

  • 使用者定義的資料處理參數 - Amazon Redshift 支援 Apache Iceberg 資料表上的使用者定義資料處理參數。您可以在現有檔案上使用使用者定義的資料處理參數來自訂外部資料表中查詢的資料,以避免掃描錯誤。這些參數提供處理資料表結構描述與檔案實際資料之間不相符的功能。您也可以在 Apache Iceberg 資料表上使用使用者定義的資料處理參數。

  • 時間歷程查詢 - Apache Iceberg 資料表目前不支援時間歷程查詢。

  • 定價 - 當您從叢集存取 Iceberg 資料表時,您需要支付 Redshift Spectrum 定價的費用。當您從工作群組存取 Iceberg 資料表時,您需要支付 Redshift Serverless 定價的費用。如需 Redshift Spectrum 和 Redshift Serverless 定價的相關資訊,請參閱 Amazon Redshift 定價

  • 中繼資料快取 – 根據 Iceberg 規格,中繼資料快取假設中繼資料檔案不可變。中繼資料檔案不可變性是 Amazon Redshift 中資料完整性的需求。