Amazon Redshift Spectrum 中外部資料湖資料表的具體化視觀表 - Amazon Redshift

Amazon Redshift 自 2025 年 11 月 1 日起不再支援建立新的 Python UDF。如果您想要使用 Python UDF,請在該日期之前建立 UDF。現有 Python UDF 將繼續正常運作。如需詳細資訊,請參閱部落格文章

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Redshift Spectrum 中外部資料湖資料表的具體化視觀表

具體化視觀表可以提供對外部資料湖資料表進行累加式維護。採取累加式維護時,Amazon Redshift 只會以基礎資料表中自上次重新整理後的資料變更,來更新具體化視觀表中的資料。每次基礎資料表上有資料變更時,採取累加式維護會比完整重新計算具體化視觀表更具成本效益。

當您至少在一個外部資料表上使用具體化視觀表時,具體化視觀表的建立會在下列項目上累加:

  • 標準資料湖資料表 (包括已分割和未分割),包含任何支援格式的資料檔案 (Parquet、Avro、CSV 等)。

  • Apache Iceberg 資料表 (包括已分割和未分割),包含寫入時複製和讀取時合併。

  • 與相同資料庫中任何 Amazon Redshift 資料表聯結的 Amazon Redshift Spectrum 資料表。

具體化視觀表重新整理會在下列項目上累加:

  • S3 DELETE 或 PUT 覆寫 (刪除資料檔案) 之後的標準資料湖資料表 (如果具體化視觀表未執行彙總)。

  • INSERT、DELETE、UPDATE 或資料表壓縮後的 Apache Iceberg 資料表。

如需 Amazon Redshift Spectrum 的詳細資訊,請參閱 Amazon Redshift Spectrum

限制

具體化視觀表的一般限制仍然適用於資料湖資料表上的具體化視觀表。如需詳細資訊,請參閱重新整理具體化視觀表。此外,當您使用外部資料湖資料表的具體化視觀表時,請考慮下列限制。

  • 具體化視觀表的建立在下列項目上為非累加:

    • Hudi 或 Delta Lake 資料表。

    • Spectrum 巢狀資料存取。

    • VARBYTE 欄的參考。

  • 具體化視觀表重新整理在下列項目上會恢復為完整重新計算:

    • Apache Iceberg 資料表,在所需的快照過期時 (如果具體化視觀表執行彙總)。

    • 標準資料湖資料表,在刪除或更新 Amazon S3 上的資料檔案之後 (如果具體化視觀表執行彙總)。

    • 標準資料湖資料表,在交易區塊內重新整理多次時。

    • 由資訊清單控管的標準資料湖資料表。如需資訊清單的詳細資訊,請參閱使用資訊清單來指定資料檔案

    • 如果預期效能更高,Amazon Redshift 會恢復完整重新計算,特別是包含聯結且自上次重新整理以來已更新多個基礎資料表的具體化視觀表。

  • 在 Apache Iceberg 資料表上,具體化視觀表重新整理最多只能處理單一資料檔案中刪除的 400 萬個位置。一旦達到此限制,Apache Iceberg 基礎資料表必須壓縮,才能繼續重新整理具體化視觀表。

  • Apache Iceberg 資料表上不支援具體化視觀表建立和重新整理的並行擴展。

  • 不支援自主功能。其中包括自動化具體化視觀表自動查詢重寫

  • 重新整理累加式具體化視觀表時,IAM 許可僅適用於 Amazon Redshift 基礎資料表已存取的部分。

  • 查詢具體化視觀表時,不會驗證 Lake Formation 所管理許可的變更。這表示,如果具體化視觀表是在資料湖資料表上定義,而選取權限已從 Lake Formation 中的資料表移除,您仍然可以查詢具體化視觀表。