Automatize a ingestão de dados a partir do Amazon AWS Data Exchange S3 - Recomendações da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Automatize a ingestão de dados a partir do Amazon AWS Data Exchange S3

Criado por Adnan Alvee (AWS) e Manikanta Gona (AWS)

Resumo

Esse padrão fornece um AWS CloudFormation modelo que permite que você consuma automaticamente dados do AWS Data Exchange seu data lake no Amazon Simple Storage Service (Amazon S3). 

AWS Data Exchange é um serviço que facilita a troca segura de conjuntos de dados baseados em arquivos na nuvem da AWS. AWS Data Exchange os conjuntos de dados são baseados em assinatura. Como assinante, você também pode acessar as revisões do conjunto de dados à medida que os provedores publicam novos dados. 

O AWS CloudFormation modelo cria um evento no Amazon CloudWatch Events e uma AWS Lambda função. O evento observa todas as atualizações do conjunto de dados no qual você se inscreveu. Se houver uma atualização, CloudWatch inicia uma função Lambda, que copia os dados para o bucket do S3 que você especificar. Quando os dados forem copiados com sucesso, o Lambda enviará uma notificação enviada pelo Amazon Simple Notification Service (Amazon SNS).

Pré-requisitos e limitações

Pré-requisitos

  • Um ativo Conta da AWS

  • Assinatura de um conjunto de dados em AWS Data Exchange

Limitações

  • O AWS CloudFormation modelo deve ser implantado separadamente para cada conjunto de dados inscrito em. AWS Data Exchange

Arquitetura

Pilha de tecnologias de destino

  • AWS Lambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

Arquitetura de destino

CloudWatch inicia uma função Lambda para copiar dados para o bucket do S3 e enviar uma notificação ao Amazon SNS.

Automação e escala

Você pode usar o AWS CloudFormation modelo várias vezes para os conjuntos de dados que deseja ingerir no data lake.

Ferramentas

  • AWS Data Exchangefacilita que os AWS clientes troquem com segurança conjuntos de dados baseados em arquivos no. Nuvem AWS Como assinante, você pode encontrar e assinar centenas de produtos de provedores de dados qualificados. Em seguida, você pode baixar rapidamente o conjunto de dados ou copiá-lo para o Amazon S3 para uso em uma variedade de serviços de AWS análise e aprendizado de máquina. Qualquer pessoa com um Conta da AWS pode ser AWS Data Exchange assinante.

  • O AWS Lambda permite que você execute código sem provisionar ou gerenciar servidores. O Lambda executa o código somente quando necessário e dimensiona automaticamente, desde algumas solicitações por dia até milhares por segundo. Você paga somente pelo tempo de computação utilizado; não há cobrança quando seu código não está em execução. Com o Lambda, você pode executar código para praticamente qualquer tipo de aplicativo ou serviço de back-end sem nenhuma administração. O Lambda executa seu código em uma infraestrutura computacional de alta disponibilidade e gerencia todos os recursos computacionais, incluindo manutenção do servidor e do sistema operacional, provisionamento de capacidade e escalabilidade automática, monitoramento de código e registro.

  • O Amazon S3 fornece armazenamento para a Internet. Você pode utilizar o Amazon S3 para armazenar e recuperar qualquer volume de dados, a qualquer momento, de qualquer lugar na web.

  • A Amazon CloudWatch Events fornece um fluxo quase em tempo real de eventos do sistema que descrevem mudanças nos AWS recursos. Usando regras simples que você pode configurar rapidamente, você pode combinar eventos e roteá-los para uma ou mais funções ou fluxos de destino. CloudWatch Os eventos ficam cientes das mudanças operacionais à medida que elas ocorrem. Ele responde a essas alterações operacionais e executa a ação corretiva conforme necessário, enviando mensagens para responder ao ambiente, ativando funções, fazendo alterações e capturando informações de estado. Você também pode usar CloudWatch Eventos para programar ações automatizadas que se iniciam automaticamente em determinados momentos usando expressões cron ou rate.

  • O Amazon Simple Notification Service (Amazon SNS) permite que aplicativos, usuários finais e dispositivos enviem e recebam instantaneamente notificações da nuvem. O Amazon SNS fornece tópicos (canais de comunicação) para mensagens de alta taxa de transferência, baseadas em push. many-to-many Usando tópicos do Amazon SNS, os editores podem distribuir mensagens para um grande número de assinantes para processamento paralelo, incluindo filas do Amazon Simple Queue Service (Amazon SQS), funções Lambda e webhooks HTTP/S. Também é possível usar o Amazon SNS para enviar notificações para usuários finais usando push móvel, SMS e e-mail.

Épicos

TarefaDescriçãoHabilidades necessárias

Assine um conjunto de dados

No AWS Data Exchange console, assine um conjunto de dados. Para obter instruções, consulte Assinatura de produtos de dados AWS Data Exchange na AWS documentação.

AWS geral

Observe os atributos do conjunto de dados.

Anote Região da AWS o ID e o ID da revisão do conjunto de dados. Você precisará disso para o AWS CloudFormation modelo na próxima etapa.

AWS geral
TarefaDescriçãoHabilidades necessárias

Crie um bucket e uma pasta no S3.

Se você já tiver um data lake no Amazon S3, crie uma pasta para armazenar os dados a serem ingeridos. AWS Data Exchange Se você estiver implantando o modelo para fins de teste, crie um novo bucket do S3 e anote o nome do bucket e o prefixo da pasta para a próxima etapa.

AWS geral

Implante o AWS CloudFormation modelo.

Implante o AWS CloudFormation modelo fornecido como anexo a esse padrão. Para obter instruções, consulte a AWS CloudFormation documentação.

Configure os seguintes parâmetros para corresponder às suas configurações Conta da AWS, do conjunto de dados e do bucket do S3: conjunto de dados Região da AWS, ID do conjunto de dados, ID da revisão, nome do bucket do S3 (por exemplo,DOC-EXAMPLE-BUCKET), prefixo da pasta (por exemplo,myfolder/) e e-mail para notificação do SNS. Você pode definir o parâmetro Nome do conjunto de dados como qualquer nome. Quando você implanta o modelo, ele executa uma função do Lambda para ingerir automaticamente o primeiro conjunto de dados disponível no conjunto de dados. A ingestão subsequente ocorre automaticamente, à medida que novos dados chegam ao conjunto de dados.

AWS geral

Recursos relacionados

Anexos

Para acessar o conteúdo adicional associado a este documento, descompacte o seguinte arquivo: attachment.zip