Descarregamento de dados de um cluster do Amazon Redshift entre contas para o Amazon S3 - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Descarregamento de dados de um cluster do Amazon Redshift entre contas para o Amazon S3

Andrew Kamel, Amazon Web Services

Resumo

Ao testar aplicações, é útil ter dados de produção em seu ambiente de teste. O uso de dados de produção pode fornecer uma avaliação mais precisa da aplicação que você está desenvolvendo.

Este padrão extrai dados de um cluster do Amazon Redshift em um ambiente de produção para um bucket do Amazon Simple Storage Service (Amazon S3) em um ambiente de desenvolvimento na Amazon Web Services (AWS).

O padrão inclui a configuração de contas DEV e PROD, como o seguinte:

  • Recursos necessários

  • AWS Identity and Access Management Funções (IAM)

  • Ajustes de rede em sub-redes, grupos de segurança e na nuvem privada virtual (VPC) para oferecer suporte à conexão do Amazon Redshift

  • Um exemplo de AWS Lambda função com um tempo de execução em Python para testar a arquitetura

Para conceder acesso ao cluster do Amazon Redshift, o padrão é usado AWS Secrets Manager para armazenar as credenciais relevantes. A vantagem é ter todas as informações necessárias para se conectar diretamente ao cluster do Amazon Redshift sem precisar saber onde o cluster do Amazon Redshift reside. Além disso, você pode monitorar o uso do segredo.

O segredo salvo no Secrets Manager inclui o host, o nome do banco de dados, a porta e as credenciais relevantes do cluster do Amazon Redshift.

Para obter informações sobre considerações de segurança ao usar esse padrão, consulte a seção Práticas recomendadas.

Pré-requisitos e limitações

Pré-requisitos

Limitações

  • Dependendo da quantidade de dados que você deseja consultar, a função do Lambda pode atingir o tempo limite.

    Se sua execução demorar mais do que o tempo limite máximo do Lambda (15 minutos), use uma abordagem assíncrona para seu código do Lambda. O exemplo de código desse padrão usa a biblioteca psycopg2 para Python, que atualmente não oferece suporte ao processamento assíncrono.

  • Alguns Serviços da AWS não estão disponíveis em todos Regiões da AWS. Para conferir a disponibilidade de uma região, consulte Serviços da AWS by Region. Para endpoints específicos, consulte a página Cotas e endpoints de serviços e clique no link correspondente ao serviço desejado.

Arquitetura

O diagrama a seguir mostra a arquitetura de destino, com contas DEV e PROD.

A VPC do Lambda na conta DEV e a VPC do Amazon Redshift na conta PROD.

O diagrama mostra o seguinte fluxo de trabalho:

  1. A função do Lambda na conta DEV assume o perfil do IAM necessário para acessar as credenciais do Amazon Redshift no Secrets Manager na conta PROD.

    Em seguida, a função do Lambda recupera o segredo do cluster do Amazon Redshift.

  2. A função Lambda na conta DEV usa as informações para se conectar ao cluster Amazon Redshift na conta PROD por meio do peering. VPCs

    Em seguida, a função do Lambda envia um comando de descarregamento para consultar o cluster do Amazon Redshift na conta PROD.

  3. O cluster do Amazon Redshift na conta PROD assume o perfil do IAM relevante para acessar o bucket do S3 na conta DEV.

    O cluster do Amazon Redshift descarrega os dados consultados no bucket do S3 na conta DEV.

Consultar dados do Amazon Redshift

O diagrama a seguir mostra as funções que são usadas para recuperar as credenciais do Amazon Redshift e conectar-se ao cluster do Amazon Redshift. O fluxo de trabalho é iniciado pela função do Lambda.

O processo de três etapas para assumir perfis em todas as contas.

O diagrama mostra o seguinte fluxo de trabalho:

  1. O CrossAccount-SM-Read-Role na conta DEV assume o SM-Read-Role na conta PROD.

  2. O perfil SM-Read-Role usa a política anexada para recuperar o segredo do Secrets Manager.

  3. As credenciais são usadas para acessar o cluster do Amazon Redshift.

Carregar dados no Amazon S3

O diagrama a seguir mostra o processo de leitura e gravação entre contas para extrair dados e enviá-los para o Amazon S3. O fluxo de trabalho é iniciado pela função do Lambda. O padrão encadeia perfis do IAM no Amazon Redshift. O comando de descarregamento enviado pelo cluster do Amazon Redshift assume o CrossAccount-S3-Write-Role e, em seguida, assume o S3-Write-Role. Este encadeamento de perfis permite ao Amazon Redshift acessar o Amazon S3.

Os perfis que recebem credenciais, acessam o Amazon Redshift e carregam dados no Amazon S3.

O fluxo de trabalho inclui as seguintes etapas:

  1. O CrossAccount-SM-Read-Role na conta DEV assume o SM-Read-Role na conta PROD.

  2. O SM-Read-Role recupera as credenciais do Amazon Redshift do Secrets Manager.

  3. A função do Lambda se conecta ao cluster do Amazon Redshift e envia uma consulta.

  4. O cluster do Amazon Redshift assume o CrossAccount-S3-Write-Role.

  5. O CrossAccount-S3-Write-Role assume o S3-Write-Role na conta DEV.

  6. Os resultados da consulta são descarregados no bucket do S3 na conta DEV.

Ferramentas

Serviços da AWS

  • AWS Key Management Service (AWS KMS) ajuda você a criar e controlar chaves criptográficas para ajudar a proteger seus dados.

  • O AWS Lambda é um serviço de computação que ajuda a executar código sem exigir provisionamento ou gerenciamento de servidores. Ele executa o código somente quando necessário e dimensiona automaticamente, assim, você paga apenas pelo tempo de computação usado.

  • O Amazon Redshift é um serviço de data warehouse em escala de petabytes gerenciado na Nuvem AWS.

  • O AWS Secrets Manager ajuda a substituir credenciais codificadas, incluindo senhas, por uma chamada de API ao Secrets Manager para recuperar o segredo por programação.

  • O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.

Repositório de código

O código desse padrão está disponível no repositório GitHub unload-redshift-to-s3-python.

Práticas recomendadas

Isenção de responsabilidade de segurança

Antes de implementar essa solução, considere as seguintes recomendações de segurança importantes:

  • Lembre-se de que conectar as contas de desenvolvimento e produção pode aumentar o escopo e reduzir a postura geral de segurança. Recomendamos implantar essa solução apenas temporariamente, extraindo a parte necessária dos dados e destruindo imediatamente os recursos implantados. Para destruir os recursos, você deve excluir a função do Lambda, remover todas as políticas e perfis do IAM criados para essa solução e revogar qualquer acesso à rede concedido entre as contas.

  • Consulte suas equipes de segurança e conformidade antes de copiar quaisquer dados dos ambientes de produção para os de desenvolvimento. Informações de identificação pessoal (PII), informações de saúde protegidas (PHI) e outros dados confidenciais ou regulamentados geralmente não devem ser copiados dessa maneira. Copie somente informações não confidenciais disponíveis publicamente (por exemplo, dados públicos do estoque do frontend de uma loja). Considere fazer a tokenização ou anonimização dos dados, ou gerar dados de teste sintéticos, em vez de usar dados de produção sempre que possível. Um dos princípios de segurança da AWS é manter as pessoas afastadas dos dados. Em outras palavras, os desenvolvedores não devem realizar operações na conta de produção.

  • Restrinja o acesso à função do Lambda na conta de desenvolvimento porque ela pode ler dados do cluster do Amazon Redshift no ambiente de produção.

  • Para evitar a interrupção do ambiente de produção, implemente as seguintes recomendações:

    • Use uma conta de desenvolvimento separada e dedicada para atividades de teste e desenvolvimento.

    • Implemente controles rígidos de acesso à rede e limite o tráfego entre contas somente ao necessário.

    • Monitore e audite o acesso ao ambiente de produção e às fontes de dados.

    • Implemente controles de acesso com privilégios mínimos para todos os recursos e serviços envolvidos.

    • Revise e alterne regularmente as credenciais, como AWS Secrets Manager segredos e chaves de acesso à função do IAM.

  • Consulte a seguinte documentação de segurança para saber mais sobre os serviços usados neste artigo:

A segurança é a maior prioridade ao acessar dados e recursos de produção. Sempre siga as práticas recomendadas, implemente controles de acesso com privilégios mínimos e revise e atualize regularmente suas medidas de segurança.

Épicos

TarefaDescriptionHabilidades necessárias

Crie um segredo o cluster do Amazon Redshift.

Para criar o segredo do cluster do Amazon Redshift, faça o seguinte:

  1. Na conta PROD, faça login no e abra o Console de gerenciamento da AWS console do Secrets Manager em https://console.aws.amazon.com/secretsmanager/.

  2. Selecione Armazenar um novo segredo.

  3. Selecione Credenciais para o data warehouse do Amazon Redshift.

  4. Em Nome de usuário e Senha, insira valores para sua instância e confirme ou escolha um valor para Chave de criptografia.

  5. Escolha o data warehouse do Amazon Redshift que seu segredo acessará.

  6. Insira Redshift-Creds-Secret como o nome do segredo.

  7. Conclua as etapas restantes da criação com as opções padrão e escolha Armazenar.

  8. Visualize o segredo e observe o valor de ARN do segredo que foi gerado para identificar o segredo.

DevOps engenheiro

Crie um perfil para acessar o Secrets Manager.

Para criar o perfil, faça o seguinte:

  1. Na conta PROD, abra o console do IAM em https://console.aws.amazon.com/iam/.

  2. Selecione Políticas.

  3. Selecione Criar política.

  4. Selecione a guia JSON e, depois, insira uma política do IAM como a seguinte:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetResourcePolicy", "secretsmanager:GetSecretValue", "secretsmanager:DescribeSecret", "secretsmanager:ListSecretVersionIds" ], "Resource": [ "<Redshift-Creds-Secret-ARN>" ] }, { "Effect": "Allow", "Action": "secretsmanager:ListSecrets", "Resource": "*" } ] }

    Substitua Redshift-Creds-Secret-ARN pelo nome do recurso da Amazon (ARN) do segredo do Secrets Manager que contém as informações e credenciais do cluster do Amazon Redshift.

DevOps engenheiro
TarefaDescriptionHabilidades necessárias

Crie um perfil para acessar o bucket do S3.

Para criar o perfil a fim de acessar o bucket do S3, faça o seguinte:

  1. Na conta DEV, abra o console do IAM.

  2.  Selecione Políticas.

  3. Selecione Criar política.

  4.  Selecione a guia JSON e, depois, insira uma política do IAM como a seguinte:

    { "Version": "2012-10-17", "Statement": [ { "Sid": "kmsstmt", "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:Encrypt", "kms:GenerateDataKey" ], "Resource": [ "<kms-key-arn>" ] }, { "Sid": "s3stmt", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:Get*", "s3:List*" ], "Resource": [ "arn:aws:s3:::mybucket", "arn:aws:s3:::mybucket/*" ] } ] }

    Substitua mybucket pelo nome do bucket do S3 ao qual você deseja ter acesso. Além disso, se o bucket do S3 estiver criptografado, kms-key-arn substitua-o pelo ARN da chave AWS KMS() usada para criptografar AWS Key Management Service o bucket do S3. Caso contrário, você não precisará da AWS KMS seção na política.

  5. Escolha Revisar política, insira S3-Write-Policy como o nome da política e escolha Criar política.

  6. No painel de navegação, selecione Perfis.

  7.  Escolha Criar Perfil.

  8. Para o perfil de entidade confiável, escolha Política de confiança personalizada.

  9. Escolha Próximo: permissões e, em seguida, selecione a política S3-Write-Policy que você criou.

  10. Insira S3-Write-Role como o nome do perfil e escolha Criar perfil.

DevOps engenheiro

Crie o perfil do Amazon Redshift.

Para criar o perfil do Amazon Redshift, faça o seguinte:

  1. Na conta PROD, abra o console do IAM.

  2. Selecione Políticas.

  3. Selecione Criar política.

  4. Selecione a guia JSON e, depois, insira uma política do IAM como a seguinte:

    { "Version": "2012-10-17", "Statement": [ { "Sid": "CrossAccountPolicy", "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "S3-Write-Role-ARN" } ] }

    Substitua S3-Write-Role-ARN pelo ARN de S3-Write-Role na conta DEV.

  5. Escolha Revisar política, insira S3-Write-Role-Assume-Policy como o nome da política e escolha Criar política.

  6. No painel de navegação, escolha Perfis e Criar perfil.

  7. Escolha o serviço da AWS como seu tipo de entidade confiável e, em seguida, escolha Redshift, Redshift: personalizável.

  8. Escolha Avançar: permissões e, em seguida, selecione a política S3-Write-Role-Assume-Policy que você criou.

  9. Insira CrossAccount-S3-Write-Role como o nome do perfil e escolha Criar perfil.

  10. Associe o perfil do IAM ao seu cluster do Amazon Redshift.

DevOps engenheiro
TarefaDescriptionHabilidades necessárias

Implante a função do Lambda.

Para implantar uma função do Lambda na VPC emparelhada, faça o seguinte:

  1. Abra o console Lambda em. https://console.aws.amazon.com/lambda/

  2. Selecione Funções.

  3. Escolha a opção Criar função.

  4. Em Basic information (Informações básicas), para Function name (Nome da função), insira um nome para a função.

  5. Em Runtime, selecione Python 3.8.

  6. Expanda Alterar o perfil de execução padrão e faça o seguinte:

    1. Escolha Usar um perfil existente.

    2. Em Função existente, selecione a função Lambda CrossAccount-RM-Read-Role que você criou anteriormente.

  7. Expanda Configurações avançadas e faça o seguinte:

    1. Marque a caixa de seleção Habilitar VPC.

    2. Para VPC, selecione a VPC emparelhada na conta DEV.

    3. Em Sub-redes, selecione todas as sub-redes privadas.

    4. Em Security groups (Grupos de segurança), selecione o grupo de segurança padrão.

  8. Escolha a opção Criar função.

  9. Adicione a biblioteca psycopg2 como uma camada à função do Lambda.

    nota

    Você pode usar uma camada já implantada do repositório psycopg2-lambda-layer. Certifique-se de usar o URL com base no seu tempo de execução Região da AWS e no Python.

DevOps engenheiro
TarefaDescriptionHabilidades necessárias

Importe os recursos necessários.

Para importar os recursos necessários, execute os seguintes comandos:

import ast import boto3 import psycopg2 import base64 from botocore.exceptions import ClientError
Desenvolvedor de aplicativos

Execute a função de manipulador do Lambda.

A função Lambda usa AWS Security Token Service (AWS STS) para acesso entre contas e gerenciamento temporário de credenciais. A função usa a operação AssumeRole da API para assumir temporariamente as permissões da função sm_read_role do IAM.

Para executar a função do Lambda, use o seguinte código de exemplo:

def lambda_handler(event, context): sts_client = boto3.client('sts') # Secrets Manager Configurations secret_name = "redshift_creds" sm_region = "eu-west-1" sm_read_role = "arn:aws:iam::PROD_ACCOUNT_NUMBER:role/SM-Read-Role" # S3 Bucket Configurations s3_bucket_path = "s3://mybucket/" s3_bucket_region = "eu-west-1" s3_write_role = "arn:aws:iam::DEV_ACCOUNT_NUMBER:role/S3-Write-Role" # Redshift Configurations sql_query = "select * from category" redshift_db = "dev" redshift_s3_write_role = "arn:aws:iam::PROD_ACCOUNT_NUMBER:role/CrossAccount-S3-Write-Role" chained_s3_write_role = "%s,%s" % (redshift_s3_write_role, s3_write_role) assumed_role_object = sts_client.assume_role( RoleArn=sm_read_role, RoleSessionName="CrossAccountRoleAssumption", ExternalId="YOUR_EXTERNAL_ID", ) credentials = assumed_role_object['Credentials'] secret_dict = ast.literal_eval(get_secret(credentials, secret_name, sm_region)) execute_query(secret_dict, sql_query, s3_bucket_path, chained_s3_write_role, s3_bucket_region, redshift_db) return { 'statusCode': 200 }
Desenvolvedor de aplicativos

Obtenha o segredo.

Para obter o segredo do Amazon Redshift, use o seguinte código de exemplo:

def get_secret(credentials, secret_name, sm_region): # Create a Secrets Manager client session = boto3.session.Session() sm_client = session.client( service_name='secretsmanager', aws_access_key_id=credentials['AccessKeyId'], aws_secret_access_key=credentials['SecretAccessKey'], aws_session_token=credentials['SessionToken'], region_name=sm_region ) try: get_secret_value_response = sm_client.get_secret_value( SecretId=secret_name ) except ClientError as e: print(e) raise e else: if 'SecretString' in get_secret_value_response: return get_secret_value_response['SecretString'] else: return base64.b64decode(get_secret_value_response['SecretBinary'])
Desenvolvedor de aplicativos

Execute o comando de descarregamento.

Para descarregar os dados no bucket do S3, use o código de exemplo a seguir.

def execute_query(secret_dict, sql_query, s3_bucket_path, chained_s3_write_role, s3_bucket_region, redshift_db): conn_string = "dbname='%s' port='%s' user='%s' password='%s' host='%s'" \ % (redshift_db, secret_dict["port"], secret_dict["username"], secret_dict["password"], secret_dict["host"]) con = psycopg2.connect(conn_string) unload_command = "UNLOAD ('{}') TO '{}' IAM_ROLE '{}' DELIMITER '|' REGION '{}';" \ .format(sql_query, s3_bucket_path + str(datetime.datetime.now()) + ".csv", chained_s3_write_role, s3_bucket_region) # Opening a cursor and run query cur = con.cursor() cur.execute(unload_command) print(cur.fetchone()) cur.close() con.close()
Desenvolvedor de aplicativos
TarefaDescriptionHabilidades necessárias

Exclua a função do Lambda.

Para evitar custos não planejados, remova os recursos e a conexão entre as contas DEV e PROD.

Para remover a função do Lambda, faça o seguinte:

  1. Abra o AWS Lambda console em https://console.aws.amazon.com/lambda/.

  2. Localize e selecione a função do Lambda que você criou.

  3. Escolha Ações e, em seguida, escolha Excluir.

  4. Confirme a exclusão.

DevOps engenheiro

Remova as políticas e os perfis do IAM.

Remova as políticas e os perfis do IAM das contas DEV e PROD.

Na conta DEV, faça o seguinte:

  1. Abra o console do IAM.

  2. Exclua os seguintes perfis:

    • S3-Write-Role

    • CrossAccount-RM-Read-Role (perfil do Lambda)

  3. Exclua as políticas associadas:

    • S3-Write-Policy

    • A CrossAccount política para assumir funções na conta PROD

Na conta PROD, faça o seguinte:

  1. Abra o console do IAM.

  2. Exclua os seguintes perfis:

    • SM-Read-Role

    • CrossAccount-S3-Write-Role

  3. Exclua as políticas associadas:

    • A CrossAccount política para acessar o Secrets Manager

    • S3-Write-Role-Assume-Policy

DevOps engenheiro

Exclua o segredo no Secrets Manager.

Para excluir o segredo, faça o seguinte:

  1. Na conta PROD, abra o console do Secrets Manager.

  2. Localize e selecione o segredo chamado Redshift-Creds-Secret.

  3. Escolha Actions (Ações) e selecione Delete secret (Excluir segredo).

  4. Confirme a exclusão.

DevOps engenheiro

Remova as regras de emparelhamento de VPC e de grupos de segurança.

Para remover as regras de emparelhamento de VPC e de grupos de segurança, faça o seguinte:

  1. Na conta PROD, abra o EC2 console da Amazon em https://console.aws.amazon.com/ec2/.

  2. Navegue até Grupos de segurança.

  3. Encontre o grupo de segurança usado pelo cluster do Amazon Redshift.

  4. Edite as regras de entrada e remova a regra que permite conexões da VPC do Lambda da conta DEV.

  5. Navegue até Conexões de emparelhamento da VPC e exclua a conexão de emparelhamento.

DevOps engenheiro

Remova os dados do bucket do S3.

Para remover os dados do Amazon S3, faça o seguinte:

  1. Na conta DEV, abra o console do Amazon S3 em. https://console.aws.amazon.com/s3/

  2. Localize o bucket que você usou para o armazenamento de dados.

  3. Exclua os objetos dentro do bucket ou exclua o bucket inteiro, caso ele não seja mais necessário.

DevOps engenheiro

Limpe AWS KMS as chaves.

Se você criou alguma AWS KMS chave personalizada para criptografia, faça o seguinte:

  1. Abra o AWS KMS console em https://console.aws.amazon.com/kms/.

  2. Localize todas as chaves criadas para esse padrão.

  3. Programe a exclusão das chaves. (Existe um período de espera obrigatório para a exclusão das chaves).

DevOps engenheiro

Revise e exclua CloudWatch os registros da Amazon.

Para excluir os CloudWatch registros, faça o seguinte:

  1. Abra o CloudWatch console em https://console.aws.amazon.com/cloudwatch/.

  2. Verifique se há grupos de log criados pela sua função do Lambda ou pelo cluster do Amazon Redshift.

  3. Exclua esses grupos de logs, caso eles não sejam mais necessários.

DevOps engenheiro

Recursos relacionados

Mais informações

Depois de descarregar os dados do Amazon Redshift para o Amazon S3, você pode analisá-los usando o Amazon Athena.

O Amazon Athena é um serviço de consulta de big data que é útil quando você precisa acessar grandes volumes de dados. Você pode usar o Athena sem precisar provisionar servidores ou bancos de dados. O Athena oferece suporte a consultas complexas, e você pode executá-lo em objetos diferentes.

Como acontece com a maioria Serviços da AWS, o principal benefício de usar o Athena é que ele oferece grande flexibilidade na forma como você executa consultas sem a complexidade adicional. Ao usar o Athena, você pode consultar diferentes tipos de dados, como CSV e JSON, no Amazon S3 sem alterar o tipo de dados. Você pode consultar dados de várias fontes, inclusive externas AWS. O Athena reduz a complexidade porque você não precisa gerenciar servidores. O Athena lê dados diretamente do Amazon S3, sem carregar ou alterar os dados antes de você executar a consulta.