Integrações ETL zero do Amazon RDS
Uma Integração ETL zero do Amazon RDS com o Amazon Redshift e o Amazon SageMaker AI permite analytics e machine learning (ML) quase em tempo real usando dados do RDS. Essa é uma solução totalmente gerenciada para disponibilizar dados transacionais no destino de analytics depois que eles são gravados em um banco dados do RDS. Extração, transformação e carregamento (ETL) é o processo de combinar dados de várias fontes em um grande data warehouse central.
Uma Integração ETL zero torna os dados no banco de dados do RDS disponíveis no Amazon Redshift ou em um lakehouse do Amazon SageMaker AI quase em tempo real. Quando esses dados estiverem no data warehouse ou data lake de destino, você poderá potencializar suas workloads de analytics, ML e IA usando os recursos integrados, como machine learning, visões materializadas, compartilhamento de dados, acesso federado a vários datastores e data lakes e integrações ao Amazon SageMaker AI, ao Quick Suite e a outros Serviços da AWS.
Para criar uma Integração ETL zero, especifique um banco de dados do Aurora RDS como a origem e um data warehouse ou lakehouse compatível como o destino. A integração replica os dados do banco de dados de origem no data warehouse ou lakehouse de destino.
O seguinte diagrama mostra essa funcionalidade de Integração ETL zero com o Amazon Redshift:
O seguinte diagrama mostra essa funcionalidade para uma Integração ETL zero com um lakehouse do Amazon SageMaker AI:
A integração monitora a integridade do pipeline de dados e se recupera de problemas quando possível. É possível criar integrações de vários bancos de dados do RDS em um único data warehouse ou lakehouse de destino, o que permite que você obtenha insights em várias aplicações.
Tópicos
Criar integrações ETL zero do Amazon Aurora com o Amazon Redshift
Criar Integrações ETL zero entre o Amazon RDS e um lakehouse do Amazon SageMaker
Adicionar dados a um banco de dados do RDS de origem e consultá-los no Amazon Redshift
Solução de problemas em integrações ETL zero do Amazon RDS com o Amazon Redshift
Benefícios
As Integrações ETL zero do RDS oferecem os seguintes benefícios:
-
Ajudam você a obter insights holísticos de várias fontes de dados.
-
Eliminam a necessidade de criar e manter canais de dados complexos que executam operações de extração, transformação e carregamento (ETL). As integrações ETL zero eliminam os desafios que surgem com a criação e o gerenciamento de pipelines, provisionando-os e gerenciando-os para você.
-
Reduzem a carga e os custos operacionais para que você possa se concentrar em melhorar as aplicações.
-
Permitem que você aproveite os recursos de analytics e ML do destino pretendido para obter insights de dados transacionais e outros dados e responder de forma eficaz a eventos críticos e urgentes.
Principais conceitos
Ao começar a usar integrações ETL zero, considere os seguintes conceitos:
- Integração
-
Um pipeline de dados totalmente gerenciado que replica automaticamente dados e esquemas transacionais de um banco de dados do RDS em um data warehouse ou catálogo.
- Banco de dados de origem
-
O banco de dados do RDS do qual os dados são replicados. É possível especificar uma instância de banco de dados single-AZ ou multi-AZ ou um cluster de banco de dados multi-AZ.(somente para RDS para MySQL).
- Alvo
-
O data warehouse ou lakehouse para o qual os dados são replicados. Há dois tipos de data warehouse: um data warehouse de cluster provisionado e um data warehouse sem servidor. Um data warehouse de cluster provisionado é um conjunto de recursos computacionais chamados nós, que são organizados em um grupo chamado cluster. Um data warehouse sem servidor é composto por um grupo de trabalho que armazena recursos computacionais e um namespace que abriga os objetos e usuários do banco de dados. Ambos os data warehouses executam um mecanismo de analytics e contêm um ou mais bancos de dados.
Um lakehouse de destino consiste em catálogos, bancos de dados, tabelas e visualizações. Para ter mais informações sobre arquitetura de lakehouse, consulte SageMaker Lakehouse components no Guia do usuário do Amazon SageMaker AI Unified Studio.
Vários bancos de dados de origem podem gravar no mesmo destino.
Para obter mais informações, consulte Arquitetura do sistema de data warehouse no Guia do desenvolvedor do Amazon Redshift.
Limitações
As limitações a seguir se aplicam às Integrações ETL zero do RDS.
Tópicos
Limitações gerais
-
O banco de dados de origem deve estar na mesma região que o destino.
-
Não será possível renomear um banco de dados se o cluster tiver integrações existentes.
-
Não é possível criar várias integrações entre os mesmos bancos de dados de origem e destino.
-
Você não pode excluir um banco de dados que tenha integrações existentes. É necessário excluir todas as integrações correspondentes primeiro.
-
Se você interromper o banco de dados de origem, as últimas transações provavelmente não serão replicadas no destino enquanto você não retomar o banco de dados.
-
Você não poderá excluir uma integração se o banco de dados de origem for interrompido.
-
Se o banco de dados for a origem de uma implantação azul/verde, os ambientes azul e verde não poderão ter integrações ETL zero existentes durante a transição. Você deve excluir a integração primeiro, alternar e, depois, recriá-la.
-
Não é possível criar uma integração para um banco de dados de origem que tenha outra integração sendo criada ativamente.
-
Quando você cria inicialmente uma integração ou quando uma tabela está sendo ressincronizada, a propagação de dados da origem para o destino pode levar de 20 a 25 minutos ou mais, dependendo do tamanho do banco de dados de origem. Esse atraso pode levar a um maior atraso na réplica.
-
Alguns tipos de dados não compatíveis. Para obter mais informações, consulte Diferenças de tipos de dados entre os bancos de dados RDS e Amazon Redshift.
-
As tabelas do sistema, tabelas temporárias e visualizações não são replicadas nos warehouses de destino.
-
A execução de comandos de DDL (por exemplo,
ALTER TABLE) em uma tabela de origem pode acionar uma ressincronização da tabela, tornando a tabela indisponível para consulta durante a ressincronização. Para obter mais informações, consulte Uma ou mais das minhas tabelas do Amazon Redshift exigem ressincronização..
Limitações do RDS para MySQL
-
O banco de dados de origem deve executar uma versão compatível do RDS para MySQL. Para conferir uma lista de versões compatíveis, consulte Regiões e mecanismos de banco de dados que permitem Integrações ETL zero com o Amazon RDS.
-
Não é possível usar Integrações ETL zero na instância primária e em uma instância de réplica de leitura na mesma região da AWS.
-
As integrações ETL zero dependem do registro em log binário (binlog) do MySQL para capturar alterações contínuas de dados. Não use a filtragem de dados baseada em log binário, pois isso pode causar inconsistências de dados entre os bancos de dados de origem e de destino.
-
As integrações ETL zero são compatíveis apenas com bancos de dados configurados para usar o mecanismo de armazenamento InnoDB.
-
Referências de chave externa com atualizações de tabelas predefinidas não são compatíveis. Especificamente, as regras
ON DELETEeON UPDATEnão são compatíveis com as açõesCASCADE,SET NULLeSET DEFAULT. A tentativa de criar ou atualizar uma tabela com essas referências a outra tabela colocará a tabela em um estado de falha. -
Não é possível criar uma integração para um banco de dados de origem que use armazenamento magnético.
Limitações do RDS para PostgreSQL
-
O banco de dados de origem deve ser uma instância do RDS para PostgreSQL executando as versões 15.7+, 16.3+ ou 17.1+. Versões anteriores não são compatíveis.
-
As integrações ETL zero do RDS para PostgreSQL não comportam clusters de banco de dados multi-AZ como bancos de dados de origem.
-
Não é possível criar uma Integração ETL zero com base em uma instância de réplica de leitura do RDS para PostgreSQL.
-
As visões materializadas e tabelas do PostgreSQL não registradas em log não são replicadas para o Amazon Redshift.
-
Não é possível replicar determinados tipos de dados do PostgreSQL, como tipos de dados de geometria
e dados acima de 64 KB, devido às limitações do Amazon Redshift. Para ter mais informações sobre as diferenças entre os tipos de dados do RDS para PostgreSQL e do Amazon Redshift, consulte na seção Diferenças entre tipos de dados. -
Não é possível realizar uma atualização de versão principal na instância de origem do RDS para PostgreSQL enquanto ela tiver uma integração ETL zero ativa. Para atualizar a instância de origem, você deve primeiro excluir todas as Integrações ETL zero existentes. Após a conclusão da atualização da versão principal, você pode recriar as Integrações ETL zero.
-
Se você realizar transações de particionamento declarativo
na instância de banco de dados de origem, todas as tabelas afetadas entrarão em um estado de falha e não estarão mais acessíveis.
Limitações do RDS para Oracle
-
O banco de dados de origem deve ser uma instância do RDS para Oracle executando a versão 19c Enterprise Edition ou Standard Edition 2, com atualização de versão de julho de 2019 ou posterior. Versões anteriores não são compatíveis.
-
Não é possível criar uma Integração ETL zero com base em uma instância de réplica de leitura do RDS para Oracle.
-
Também não é possível renomear um banco de dados de locatários quando há uma Integração ETL zero nesse banco de dados de locatário.
-
Um banco de dados de locatários pode ter apenas uma Integração ETL zero.
-
Há alguns diferenças entre os tipos de dados do RDS para Oracle e do Amazon Redshift. Para ter mais informações, consulte na seção Diferenças entre tipos de dados.
Limitações do Amazon Redshift
Para conferir uma lista das limitações do Amazon Redshift relacionadas às integrações ETL zero, consulte Considerações ao usar integrações ETL zero com o Amazon Redshift no Guia de gerenciamento do Amazon Redshift.
Amazon SageMaker AILimitações referentes a lakehouses do
A seguir é apresentada uma limitação para Integrações ETL zero com lakehouses do Amazon SageMaker AI.
-
Os nomes de catálogo podem ter no máximo 19 caracteres de comprimento.
Cotas
Sua conta tem as cotas a seguir relacionadas a Integrações ETL zero do RDS. Salvo indicação em contrário, cada cota aplica-se por região.
| Name | Padrão | Descrição |
|---|---|---|
| Integrações | 100 | O número total de integrações em uma Conta da AWS. |
| Integrações por destino | 50 | O número de integrações que enviam dados a um único data warehouse ou lakehouse de destino. |
| de origem | 5 | O número de integrações que enviam dados de uma única instância de banco de dados de origem. |
Além disso, o warehouse de destino impõe certos limites ao número de tabelas permitidas em cada instância de banco de dados ou nó de cluster. Para ter mais informações sobre cotas e limites do Amazon Redshift, consulte Cotas e limites no Amazon Redshift no Guida de gerenciamento do Amazon Redshift.
Regiões com suporte
As Integrações ETL zero do RDS estão disponíveis em um subconjunto de Regiões da AWS. Para obter uma lista de regiões compatíveis, consulte Regiões e mecanismos de banco de dados que permitem Integrações ETL zero com o Amazon RDS.