Aurora與 Amazon Redshift 的零 ETL 整合 - Amazon Aurora

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Aurora與 Amazon Redshift 的零 ETL 整合

與 Amazon Redshift 的 Aurora 零 ETL 整合可在來自 Aurora 的 PB 級交易資料上使用 Amazon Redshift 啟用近乎即時的分析和機器學習 (ML)。它是全受管解決方案,可在寫入 Aurora 資料庫叢集之後,在 Amazon Redshift 中提供交易資料。擷取、轉換載入 (ETL) 是將來自多個來源的資料合併到大型中央資料倉儲的程序。

零 ETL 整合可讓您的 中的資料Aurora 資料庫叢集近乎即時地在 Amazon Redshift 中提供。一旦資料在 Amazon Redshift 中,您可以使用 Amazon Redshift 的內建功能來支援分析、ML 和 AI 工作負載,例如機器學習、具體化視觀表、資料共用、對多個資料存放區和資料湖的聯合存取,以及與 Amazon SageMaker AI、QuickSight 等的整合 AWS 服務。

若要建立零 ETL 整合,您可以將 Aurora 資料庫叢集指定來源,並將 Amazon Redshift 資料倉儲指定為目標。整合會將來源資料庫中的資料複寫到目標資料倉儲。

下圖說明此功能。

零 ETL 整合

整合會監控資料管道的運作狀態,並在可能的情況下從問題中復原。您可以從多個 Aurora 資料庫叢集建立整合到單一 Amazon Redshift 命名空間,讓您能夠跨多個應用程式衍生洞見。

如需零 ETL 整合定價的資訊,請參閱 Amazon Aurora 定價Amazon Redshift 定價

優勢

與 Amazon Redshift 的 Aurora 零 ETL 整合具有下列主要優勢:

  • 協助您從多個資料來源衍生整體洞見。

  • 無需建置和維護執行擷取、轉換和載入 (ETL) 操作的複雜資料管道。Zero-ETL 整合會透過為您佈建和管理管道,免除建置和管理這些管道所帶來的挑戰。

  • 減少操作負擔和成本,讓您專注於改善應用程式。

  • 可讓您利用 Amazon Redshift 的分析和 ML 功能,從交易和其他資料衍生洞見,以有效回應關鍵且時間敏感的事件。

重要概念

當您開始使用零 ETL 整合時,請考慮下列概念:

整合

全受管資料管道,可自動將交易資料和結構描述從 Aurora 資料庫叢集複寫到 Amazon Redshift 資料倉儲。

來源資料庫叢集

複寫資料來源的 Aurora 資料庫叢集您可以指定使用佈建資料庫執行個體或Aurora Serverless v2資料庫執行個體做為來源的資料庫叢集。

目標資料倉儲

將資料複寫至其中的 Amazon Redshift 資料倉儲。資料倉儲有兩種類型:佈建的叢集資料倉儲和無伺服器資料倉儲。佈建的叢集資料倉儲是稱為節點的運算資源集合,這些節點會組織成稱為叢集的群組。無伺服器資料倉儲由存放運算資源的工作群組,以及為資料庫物件和使用者提供空間的命名空間所組成。這兩個資料倉儲都會執行 Amazon Redshift 引擎,並包含一或多個資料庫。

多個來源資料庫叢集可以寫入相同的目標。

如需詳細資訊,請參閱《Amazon Redshift 開發人員指南》中的資料倉儲系統架構

限制

以下限制適用於與 Amazon Redshift 的 Aurora 零 ETL 整合。

一般限制

  • 來源資料庫叢集必須與目標 Amazon Redshift 資料倉儲位於相同的區域。

  • 如果叢集具有現有的整合,則無法重新命名資料庫叢集或其任何執行個體

  • 您無法在相同的來源和目標資料庫之間建立多個整合。

  • 您無法刪除具有現有整合的資料庫叢集。您必須先刪除所有相關聯的整合。

  • 如果您停止來源資料庫叢集,在您繼續叢集之前,最後幾個交易可能不會複寫到目標資料倉儲。

  • 如果您的叢集是藍/綠部署的來源,則藍和綠環境在切換期間無法擁有現有的零 ETL 整合。您必須先刪除整合再進行轉換,然後重新建立該整合。

  • 資料庫叢集必須至少包含一個資料庫執行個體,才能成為整合的來源。

  • 您無法為跨帳戶複製的來源資料庫叢集建立整合,例如使用 AWS Resource Access Manager () 共用的資料庫叢集AWS RAM。

  • 如果來源叢集是 Aurora 全域資料庫中的主要資料庫叢集,且容錯移轉到其中一個次要叢集,則整合會變成非作用中。您必須刪除並重新建立整合。

  • 您無法為正在積極建立另一個整合的來源資料庫建立整合。

  • 當您一開始建立整合時或當資料表重新同步時,從來源植入目標的資料可能需要 20 到 25 分鐘或更長時間,取決於來源資料庫的大小。此延遲可能會導致複本延遲增加。

  • 不支援某些資料類型。如需詳細資訊,請參閱Aurora 與 Amazon Redshift 資料庫之間的資料類型差異

  • 系統資料表、暫存資料表和檢視不會複寫至 Amazon Redshift。

  • ALTER TABLE 分割區操作會導致資料表重新同步,以便將資料從 Aurora 重新載入 Amazon Redshift。資料表在重新同步時將無法進行查詢。如需詳細資訊,請參閱我的一個或多個 Amazon Redshift 資料表需要重新同步

Aurora MySQL 限制

  • 您的來源資料庫叢集必須執行支援的 Aurora MySQL 版本。如需支援的版本的清單,請參閱支援與 Amazon Redshift 進行零 ETL 整合的區域和 Aurora 資料庫引擎

  • 零 ETL 整合依賴 MySQL 二進位記錄 (binlog),來擷取持續的資料變更。請勿使用 binlog 型資料篩選,因為這可能會導致來源和目標資料庫之間的資料不一致。

  • 僅針對設定為使用 InnoDB 儲存體引擎的資料庫支援零 ETL 整合。

  • 不支援具有預先定義資料表更新的外部金鑰參考。具體而言, CASCADE、 和 SET DEFAULT動作不支援 SET NULLON DELETEON UPDATE規則。嘗試建立或更新對另一個資料表具有這類參考的資料表,會將該資料表置於失敗狀態。

  • 在來源資料庫叢集上執行的 XA 交易會導致整合進入 狀態Syncing

Aurora PostgreSQL 限制

  • 您的來源資料庫叢集必須執行支援的 Aurora PostgreSQL 版本。如需支援的版本的清單,請參閱支援與 Amazon Redshift 進行零 ETL 整合的區域和 Aurora 資料庫引擎

  • 如果您選取 Aurora PostgreSQL 來源資料庫叢集,則必須至少指定一個資料篩選條件模式。至少,模式必須包含單一資料庫 (database-name.*.*),才能複寫至 Amazon Redshift。如需詳細資訊,請參閱Amazon 與 Amazon Redshift 整合的資料篩選

  • 在來源 Aurora PostgreSQL 資料庫叢集內建立的所有資料庫都必須使用 UTF-8 編碼。

  • 如果您在來源資料庫叢集上執行宣告式分割交易,所有受影響的資料表都會進入失敗狀態,且無法在 Amazon Redshift 中存取。

  • 不支援兩階段交易

  • 如果您從整合來源的資料庫叢集刪除所有資料庫執行個體,然後重新新增資料庫執行個體,則來源與目標叢集之間的複寫會中斷。

  • 來源資料庫叢集無法使用 Aurora 無限制資料庫。

Amazon Redshift 限制

如需與零 ETL 整合相關的 Amazon Redshift 限制清單,請參閱《Amazon Redshift 管理指南》中的將零 ETL 整合與 Amazon Redshift 搭配使用時的考量事項。

配額

您的帳戶具有與 Amazon Redshift 的 Aurora 零 ETL 整合相關的下列配額。除非另有說明,否則每個配額都是根據區域而定。

名稱 預設 描述
整合 100 AWS 帳戶內的整合總數。
每個目標資料倉儲的整合 50 將資料傳送至單一目標 Amazon Redshift 資料倉儲的整合數目。
每個來源叢集的整合 5 從單一來源資料庫叢集傳送資料的整合數目。

此外,Amazon Redshift 會對每個資料庫執行個體或叢集節點中允許的資料表數目設定某些限制。如需詳細資訊,請參閱《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配額和限制

支援地區

Aurora與 Amazon Redshift 的零 ETL 整合可在 的子集中使用 AWS 區域。如需支援的區域的清單,請參閱 支援與 Amazon Redshift 進行零 ETL 整合的區域和 Aurora 資料庫引擎