Vantaggi Concetti chiave Limitazioni Quote Regioni supportate

Integrazioni Zero-ETL di Aurora

È una soluzione completamente gestita per rendere disponibili i dati transazionali nella destinazione di analisi dopo averli scritti su un DB). L'estrazione, la trasformazione e il caricamento (ETL) è il processo di combinazione di dati provenienti da più fonti in un ampio data warehouse centrale.

Un'integrazione zero-ETL rende i dati del cluster Aurora DB del disponibili in Amazon Redshift o in un lago quasi in tempo reale. Amazon SageMaker AI Una volta che i dati sono nel data warehouse o data lake di destinazione, puoi potenziare i tuoi carichi di lavoro di analisi, ML e intelligenza artificiale utilizzando le funzionalità integrate, come machine learning, viste materializzate, condivisione dei dati, accesso federato a più data store e data lake e integrazioni con SageMaker Amazon AI QuickSight e altro. Servizi AWS

Per creare un'integrazione zero-ETL, specificate un , un cluster Aurora DB come origine e un data warehouse o lakehouse supportati come destinazione. L'integrazione replica i dati dal database di origine nel data warehouse o nel lago di destinazione.

Il diagramma seguente illustra questa funzionalità per l'integrazione zero-ETL con Amazon Redshift:

Il diagramma seguente illustra questa funzionalità per l'integrazione zero-ETL con un lago: Amazon SageMaker AI

Un'integrazione zero-ETL con un lago Amazon SageMaker AI

L'integrazione monitora lo stato della pipeline dei dati ed esegue il ripristino in caso di problemi quando possibile. Puoi creare integrazioni da più database DB) in un unico data warehouse o lago di destinazione, consentendoti di ricavare informazioni su più applicazioni.

Per informazioni sui prezzi per le integrazioni zero-ETL, consulta i prezzi di Amazon RDS, Aurora e i prezzi di Amazon Redshift.

Argomenti

Vantaggi

Aurora offrono i seguenti vantaggi:

Ti consentono di ottenere approfondimenti di tipo olistico da più origini dati.
Eliminano la necessità di creare e gestire pipeline dei dati complesse che eseguono operazioni di estrazione, trasformazione e caricamento (ETL). Le integrazioni Zero-ETL forniscono e gestiscono le pipeline per te, eliminando le sfide legate alla loro creazione e gestione.
Ti consentono di ridurre il carico e i costi operativi e di concentrarti sul miglioramento delle applicazioni.
Consenti di sfruttare le funzionalità di analisi e ML della destinazione di destinazione per ricavare informazioni dettagliate da dati transazionali e di altro tipo, per rispondere efficacemente a eventi critici e urgenti.

Concetti chiave

Per iniziare a utilizzare le integrazioni Zero-ETL, tieni presente i seguenti concetti:

Integrazione

Una pipeline di dati completamente gestita che replica automaticamente i dati e gli schemi transazionali da un cluster RDS a un data warehouse o catalogo.

Il cluster Aurora DB da cui vengono replicati i dati. È possibile specificare un cluster DB che utilizza istanze DB o Aurora Serverless v2 istanze DB assegnate come origine.

Target

Il data warehouse o il lago in cui vengono replicati i dati. Esistono due tipi di data warehouse: un data warehouse con cluster con provisioning e un data warehouse serverless. Un data warehouse con cluster con provisioning è costituito da un insieme di risorse di calcolo denominate nodi, strutturate in un gruppo denominato cluster. Un data warehouse serverless è composto da un gruppo di lavoro che archivia le risorse di calcolo e da un spazio dei nomi che ospita gli oggetti e gli utenti del database. Entrambi i data warehouse utilizzano un motore di analisi e contengono uno o più database.

Un target lakehouse è costituito da cataloghi, database, tabelle e viste. Per ulteriori informazioni sull'architettura Lakehouse, consulta SageMaker Lakehouse componentsla Guida per l'utente. Amazon SageMaker AI Unified Studio

I cluster DB di più di origine possono scrivere sullo stesso target.

Per ulteriori informazioni sui nodi principali e sui nodi di calcolo, consulta Architettura del sistema di data warehouse nella Guida per sviluppatori di database di Amazon Redshift.

Limitazioni

Le seguenti limitazioni si applicano alle integrazioni Aurora.

Argomenti

Limitazioni generali
Aurora MySQL
Limitazioni di Aurora PostgreSQL
Limitazioni di Amazon Redshift
Amazon SageMaker AI limitazioni di Lakehouse

Limitazioni generali

Il cluster DB del di origine deve trovarsi nella stessa regione della destinazione.
Non è possibile rinominare un cluster DB di o una delle sue istanze se dispone di integrazioni esistenti.
Non è possibile creare più integrazioni tra gli stessi database di origine e di destinazione.
Non è possibile eliminare un cluster DB di integrazioni esistenti. Devi prima eliminare tutte le integrazioni associate.
Se il cluster di è all'origine di una distribuzione blu/verde, gli ambienti blu e verde non possono avere integrazioni zero-ETL esistenti durante lo switchover. Occorre eliminare l'integrazione, eseguire lo switchover e poi ricrearla.
Un cluster DB deve contenere almeno un'istanza DB per essere la fonte di un'integrazione.
Non è possibile creare un'integrazione per un cluster DB di origine che è un clone tra più account, come quelli condivisi utilizzando AWS Resource Access Manager ()AWS RAM.
Se il cluster di origine è il cluster database primario in un database globale Aurora e esegue il failover su uno dei relativi cluster secondari, l'integrazione diventa inattiva. È necessario eliminare e ricreare l'integrazione.
Non è possibile creare un'integrazione per un database di origine in cui viene creata attivamente un'altra integrazione.
Durante la fase iniziale della creazione di un'integrazione o quando una tabella viene risincronizzata, il seeding dei dati dall'origine alla destinazione può richiedere 20-25 minuti o più, a seconda delle dimensioni del database di origine. Questo ritardo può portare a un aumento del ritardo di replica.
Alcuni tipi di dati non sono supportati. Per ulteriori informazioni, consulta Differenze tra i tipi di dati tra i database Aurora e Amazon Redshift.
Le tabelle di sistema, le tabelle temporanee e le viste non vengono replicate nei magazzini di destinazione.
L'esecuzione di comandi DDL (ad esempioALTER TABLE) su una tabella di origine può attivare una risincronizzazione della tabella, rendendola non disponibile per l'interrogazione durante la risincronizzazione. Per ulteriori informazioni, consulta Una o più tabelle Amazon Redshift richiedono una risincronizzazione.

Aurora MySQL

Il cluster DB di origine deve eseguire una versione supportata di Aurora MySQL. Per un elenco delle versioni supportate, consulta Regioni supportate e motori Aurora DB per integrazioni zero-ETL.
Le integrazioni Zero-ETL si basano sui log binari MySQL (binlog) per acquisire le modifiche continue dei dati. Non utilizzare il filtraggio dei dati basato su binlog, poiché può causare incongruenze di dati tra i database di origine e di destinazione.
Le integrazioni Zero-ETL sono supportate solo per i database configurati per l'utilizzo del motore di storage InnoDB.
I riferimenti a chiavi esterne con aggiornamenti di tabella predefiniti non sono supportati. In particolare, ON DELETE le ON UPDATE regole non sono supportate con CASCADESET NULL, e SET DEFAULT le azioni. Se si tenta di creare o aggiornare una tabella con tali riferimenti a un'altra tabella, la tabella entrerà in uno stato di errore.
Le transazioni XA eseguite sul cluster DB di origine fanno sì che l'integrazione entri in uno stato diSyncing.

Limitazioni di Aurora PostgreSQL

Il cluster DB di origine deve eseguire una versione supportata di Aurora PostgreSQL. Per un elenco delle versioni supportate, consulta Regioni supportate e motori Aurora DB per integrazioni zero-ETL.
Se si seleziona un cluster DB di origine Aurora PostgreSQL, è necessario specificare almeno un modello di filtro dei dati. Come minimo, il modello deve includere un singolo database (database-name.*.*) per la replica nel magazzino di destinazione. Per ulteriori informazioni, consulta Filtraggio dei dati per le integrazioni Zero-ETL di .
Tutti i database creati all'interno del cluster Aurora PostgreSQL DB di origine devono utilizzare la codifica UTF-8.
Se si eseguono transazioni di partizionamento dichiarativo sul cluster DB di origine, tutte le tabelle interessate entrano in uno stato di errore e non sono più accessibili.
Le transazioni in due fasi non sono supportate.
Se si eliminano tutte le istanze DB da un cluster DB che è l'origine di un'integrazione e quindi si aggiunge nuovamente un'istanza DB, la replica si interrompe tra il cluster di origine e quello di destinazione.
Il cluster DB di origine non può utilizzare Aurora Limitless Database.

Limitazioni di Amazon Redshift

Per un elenco delle limitazioni di Amazon Redshift relative alle integrazioni Zero-ETL, consulta Considerazioni sull'utilizzo delle integrazioni Zero-ETL con Amazon Redshift nella Amazon Redshift Management Guide.

Amazon SageMaker AI limitazioni di Lakehouse

Di seguito è riportata una limitazione per le integrazioni Amazon SageMaker AI Lakehouse Zero-ETL.

I nomi dei cataloghi hanno una lunghezza massima di 19 caratteri.

Quote

Il tuo account ha le seguenti quote relative alle integrazioni Zero-ETL. Salvo dove diversamente specificato, ogni quota fa riferimento a una Regione specifica.

Nome	Predefinito	Descrizione
Integrazioni	100	Numero totale di integrazioni all'interno di un Account AWS.
Integrazioni per target	50	Il numero di integrazioni che inviano dati a un data warehouse o a un lago di destinazione singola.
Integrazioni per cluster di origine	5	Il numero di integrazioni che inviano dati da un cluster DB di istanza

Inoltre, il warehouse di destinazione impone determinati limiti al numero di tabelle consentite in ogni istanza DB o nodo del cluster. Per ulteriori informazioni su quote e limiti di Amazon Redshift, consulta Quote e limiti in Amazon Redshift nella Amazon Redshift Management Guide.

Regioni supportate

Le integrazioni Aurora Zero-ETL sono disponibili in un sottoinsieme di. Regioni AWS Per un elenco delle regioni supportate, consultare Regioni supportate e motori Aurora DB per integrazioni zero-ETL.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo del Server proxy per RDS con i database globali Aurora

Guida introduttiva alle integrazioni Zero-ETL