As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Descarregamento de dados de um cluster do Amazon Redshift entre contas para o Amazon S3
Andrew Kamel, Amazon Web Services
Resumo
Ao testar aplicações, é útil ter dados de produção em seu ambiente de teste. O uso de dados de produção pode fornecer uma avaliação mais precisa da aplicação que você está desenvolvendo.
Este padrão extrai dados de um cluster do Amazon Redshift em um ambiente de produção para um bucket do Amazon Simple Storage Service (Amazon S3) em um ambiente de desenvolvimento na Amazon Web Services (AWS).
O padrão inclui a configuração de contas DEV e PROD, como o seguinte:
Recursos necessários
AWS Identity and Access Management Funções (IAM)
Ajustes de rede em sub-redes, grupos de segurança e na nuvem privada virtual (VPC) para oferecer suporte à conexão do Amazon Redshift
Um exemplo de AWS Lambda função com um tempo de execução em Python para testar a arquitetura
Para conceder acesso ao cluster do Amazon Redshift, o padrão é usado AWS Secrets Manager para armazenar as credenciais relevantes. A vantagem é ter todas as informações necessárias para se conectar diretamente ao cluster do Amazon Redshift sem precisar saber onde o cluster do Amazon Redshift reside. Além disso, você pode monitorar o uso do segredo.
O segredo salvo no Secrets Manager inclui o host, o nome do banco de dados, a porta e as credenciais relevantes do cluster do Amazon Redshift.
Para obter informações sobre considerações de segurança ao usar esse padrão, consulte a seção Práticas recomendadas.
Pré-requisitos e limitações
Pré-requisitos
Um cluster do Amazon Redshift em execução na conta PROD
Um bucket do S3 criado na conta DEV
Emparelhamento de VPC entre as contas DEV e PROD, com tabelas de rotas ajustadas adequadamente
Nomes de host DNS e resolução de DNS habilitados para ambos emparelhados VPCs
Limitações
Dependendo da quantidade de dados que você deseja consultar, a função do Lambda pode atingir o tempo limite.
Se sua execução demorar mais do que o tempo limite máximo do Lambda (15 minutos), use uma abordagem assíncrona para seu código do Lambda. O exemplo de código desse padrão usa a biblioteca psycopg2
para Python, que atualmente não oferece suporte ao processamento assíncrono. Alguns Serviços da AWS não estão disponíveis em todos Regiões da AWS. Para conferir a disponibilidade de uma região, consulte Serviços da AWS by Region
. Para endpoints específicos, consulte a página Cotas e endpoints de serviços e clique no link correspondente ao serviço desejado.
Arquitetura
O diagrama a seguir mostra a arquitetura de destino, com contas DEV e PROD.

O diagrama mostra o seguinte fluxo de trabalho:
A função do Lambda na conta DEV assume o perfil do IAM necessário para acessar as credenciais do Amazon Redshift no Secrets Manager na conta PROD.
Em seguida, a função do Lambda recupera o segredo do cluster do Amazon Redshift.
A função Lambda na conta DEV usa as informações para se conectar ao cluster Amazon Redshift na conta PROD por meio do peering. VPCs
Em seguida, a função do Lambda envia um comando de descarregamento para consultar o cluster do Amazon Redshift na conta PROD.
O cluster do Amazon Redshift na conta PROD assume o perfil do IAM relevante para acessar o bucket do S3 na conta DEV.
O cluster do Amazon Redshift descarrega os dados consultados no bucket do S3 na conta DEV.
Consultar dados do Amazon Redshift
O diagrama a seguir mostra as funções que são usadas para recuperar as credenciais do Amazon Redshift e conectar-se ao cluster do Amazon Redshift. O fluxo de trabalho é iniciado pela função do Lambda.

O diagrama mostra o seguinte fluxo de trabalho:
O
CrossAccount-SM-Read-Rolena conta DEV assume oSM-Read-Rolena conta PROD.O perfil
SM-Read-Roleusa a política anexada para recuperar o segredo do Secrets Manager.As credenciais são usadas para acessar o cluster do Amazon Redshift.
Carregar dados no Amazon S3
O diagrama a seguir mostra o processo de leitura e gravação entre contas para extrair dados e enviá-los para o Amazon S3. O fluxo de trabalho é iniciado pela função do Lambda. O padrão encadeia perfis do IAM no Amazon Redshift. O comando de descarregamento enviado pelo cluster do Amazon Redshift assume o CrossAccount-S3-Write-Role e, em seguida, assume o S3-Write-Role. Este encadeamento de perfis permite ao Amazon Redshift acessar o Amazon S3.

O fluxo de trabalho inclui as seguintes etapas:
O
CrossAccount-SM-Read-Rolena conta DEV assume oSM-Read-Rolena conta PROD.O
SM-Read-Rolerecupera as credenciais do Amazon Redshift do Secrets Manager.A função do Lambda se conecta ao cluster do Amazon Redshift e envia uma consulta.
O cluster do Amazon Redshift assume o
CrossAccount-S3-Write-Role.O
CrossAccount-S3-Write-Roleassume oS3-Write-Rolena conta DEV.Os resultados da consulta são descarregados no bucket do S3 na conta DEV.
Ferramentas
Serviços da AWS
AWS Key Management Service (AWS KMS) ajuda você a criar e controlar chaves criptográficas para ajudar a proteger seus dados.
O AWS Lambda é um serviço de computação que ajuda a executar código sem exigir provisionamento ou gerenciamento de servidores. Ele executa o código somente quando necessário e dimensiona automaticamente, assim, você paga apenas pelo tempo de computação usado.
O Amazon Redshift é um serviço de data warehouse em escala de petabytes gerenciado na Nuvem AWS.
O AWS Secrets Manager ajuda a substituir credenciais codificadas, incluindo senhas, por uma chamada de API ao Secrets Manager para recuperar o segredo por programação.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
Repositório de código
O código desse padrão está disponível no repositório GitHub unload-redshift-to-s3-python
Práticas recomendadas
Isenção de responsabilidade de segurança
Antes de implementar essa solução, considere as seguintes recomendações de segurança importantes:
Lembre-se de que conectar as contas de desenvolvimento e produção pode aumentar o escopo e reduzir a postura geral de segurança. Recomendamos implantar essa solução apenas temporariamente, extraindo a parte necessária dos dados e destruindo imediatamente os recursos implantados. Para destruir os recursos, você deve excluir a função do Lambda, remover todas as políticas e perfis do IAM criados para essa solução e revogar qualquer acesso à rede concedido entre as contas.
Consulte suas equipes de segurança e conformidade antes de copiar quaisquer dados dos ambientes de produção para os de desenvolvimento. Informações de identificação pessoal (PII), informações de saúde protegidas (PHI) e outros dados confidenciais ou regulamentados geralmente não devem ser copiados dessa maneira. Copie somente informações não confidenciais disponíveis publicamente (por exemplo, dados públicos do estoque do frontend de uma loja). Considere fazer a tokenização ou anonimização dos dados, ou gerar dados de teste sintéticos, em vez de usar dados de produção sempre que possível. Um dos princípios de segurança da AWS é manter as pessoas afastadas dos dados. Em outras palavras, os desenvolvedores não devem realizar operações na conta de produção.
Restrinja o acesso à função do Lambda na conta de desenvolvimento porque ela pode ler dados do cluster do Amazon Redshift no ambiente de produção.
Para evitar a interrupção do ambiente de produção, implemente as seguintes recomendações:
Use uma conta de desenvolvimento separada e dedicada para atividades de teste e desenvolvimento.
Implemente controles rígidos de acesso à rede e limite o tráfego entre contas somente ao necessário.
Monitore e audite o acesso ao ambiente de produção e às fontes de dados.
Implemente controles de acesso com privilégios mínimos para todos os recursos e serviços envolvidos.
Revise e alterne regularmente as credenciais, como AWS Secrets Manager segredos e chaves de acesso à função do IAM.
Consulte a seguinte documentação de segurança para saber mais sobre os serviços usados neste artigo:
A segurança é a maior prioridade ao acessar dados e recursos de produção. Sempre siga as práticas recomendadas, implemente controles de acesso com privilégios mínimos e revise e atualize regularmente suas medidas de segurança.
Épicos
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Crie um segredo o cluster do Amazon Redshift. | Para criar o segredo do cluster do Amazon Redshift, faça o seguinte:
| DevOps engenheiro |
Crie um perfil para acessar o Secrets Manager. | Para criar o perfil, faça o seguinte:
| DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Crie um perfil para acessar o bucket do S3. | Para criar o perfil a fim de acessar o bucket do S3, faça o seguinte:
| DevOps engenheiro |
Crie o perfil do Amazon Redshift. | Para criar o perfil do Amazon Redshift, faça o seguinte:
| DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Implante a função do Lambda. | Para implantar uma função do Lambda na VPC emparelhada, faça o seguinte:
| DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Importe os recursos necessários. | Para importar os recursos necessários, execute os seguintes comandos:
| Desenvolvedor de aplicativos |
Execute a função de manipulador do Lambda. | A função Lambda usa AWS Security Token Service (AWS STS) para acesso entre contas e gerenciamento temporário de credenciais. A função usa a operação AssumeRole da API para assumir temporariamente as permissões da função Para executar a função do Lambda, use o seguinte código de exemplo:
| Desenvolvedor de aplicativos |
Obtenha o segredo. | Para obter o segredo do Amazon Redshift, use o seguinte código de exemplo:
| Desenvolvedor de aplicativos |
Execute o comando de descarregamento. | Para descarregar os dados no bucket do S3, use o código de exemplo a seguir.
| Desenvolvedor de aplicativos |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Exclua a função do Lambda. | Para evitar custos não planejados, remova os recursos e a conexão entre as contas DEV e PROD. Para remover a função do Lambda, faça o seguinte:
| DevOps engenheiro |
Remova as políticas e os perfis do IAM. | Remova as políticas e os perfis do IAM das contas DEV e PROD. Na conta DEV, faça o seguinte:
Na conta PROD, faça o seguinte:
| DevOps engenheiro |
Exclua o segredo no Secrets Manager. | Para excluir o segredo, faça o seguinte:
| DevOps engenheiro |
Remova as regras de emparelhamento de VPC e de grupos de segurança. | Para remover as regras de emparelhamento de VPC e de grupos de segurança, faça o seguinte:
| DevOps engenheiro |
Remova os dados do bucket do S3. | Para remover os dados do Amazon S3, faça o seguinte:
| DevOps engenheiro |
Limpe AWS KMS as chaves. | Se você criou alguma AWS KMS chave personalizada para criptografia, faça o seguinte:
| DevOps engenheiro |
Revise e exclua CloudWatch os registros da Amazon. | Para excluir os CloudWatch registros, faça o seguinte:
| DevOps engenheiro |
Recursos relacionados
Mais informações
Depois de descarregar os dados do Amazon Redshift para o Amazon S3, você pode analisá-los usando o Amazon Athena.
O Amazon Athena é um serviço de consulta de big data que é útil quando você precisa acessar grandes volumes de dados. Você pode usar o Athena sem precisar provisionar servidores ou bancos de dados. O Athena oferece suporte a consultas complexas, e você pode executá-lo em objetos diferentes.
Como acontece com a maioria Serviços da AWS, o principal benefício de usar o Athena é que ele oferece grande flexibilidade na forma como você executa consultas sem a complexidade adicional. Ao usar o Athena, você pode consultar diferentes tipos de dados, como CSV e JSON, no Amazon S3 sem alterar o tipo de dados. Você pode consultar dados de várias fontes, inclusive externas AWS. O Athena reduz a complexidade porque você não precisa gerenciar servidores. O Athena lê dados diretamente do Amazon S3, sem carregar ou alterar os dados antes de você executar a consulta.