As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie uma malha de dados corporativa com a Amazon DataZone, AWS CDK, e AWS CloudFormation
Dhrubajyoti Mukherjee, Ravi Kumar, Weizhou Sun e Adjoa Taylor, Amazon Web Services
Resumo
Na Amazon Web Services (AWS), os clientes entendem que os dados são a chave para acelerar a inovação e gerar valor comercial para sua empresa. Para gerenciar esse volume massivo de dados, você pode adotar uma arquitetura descentralizada como data mesh. Uma arquitetura de data mesh facilita o pensamento voltado ao produto, uma mentalidade que leva em consideração os clientes, as metas e o mercado. A data mesh também ajuda a estabelecer um modelo de governança federada que fornece acesso rápido e seguro aos seus dados.
Strategies for building a data mesh-based enterprise solution on AWS discute como você pode usar a Data Mesh Strategy Framework para formular e implementar uma estratégia de data mesh para sua organização. Ao usar a Data Mesh Strategy Framework, você pode otimizar a organização das equipes e suas interações para acelerar sua jornada de data mesh.
Este documento fornece orientação sobre como criar uma malha de dados corporativa com a Amazon DataZone. DataZone A Amazon é um serviço de gerenciamento de dados para catalogar, descobrir, compartilhar e governar dados armazenados localmente e em AWS fontes terceirizadas. O padrão inclui artefatos de código que ajudam você a implantar a infraestrutura de solução de dados baseada em malha de dados usando e. AWS Cloud Development Kit (AWS CDK) AWS CloudFormation Esse padrão é destinado a arquitetos e DevOps engenheiros de nuvem.
Para obter informações sobre os objetivos desse padrão e o escopo da solução, consulte a seção Informações adicionais.
Pré-requisitos e limitações
Pré-requisitos
Um mínimo de dois ativos Contas da AWS: um para a conta de governança central e outro para a conta do membro
AWS credenciais de administrador para a conta de governança central em seu ambiente de desenvolvimento
AWS Command Line Interface (AWS CLI) instalado para gerenciar seu a Serviços da AWS partir da linha de comando
Node.js e Node Package Manager (npm) instalados
para gerenciar aplicativos AWS CDK AWS CDK Kit de ferramentas instalado globalmente em seu ambiente de desenvolvimento usando npm, para sintetizar e implantar aplicativos AWS CDK
npm install -g aws-cdkPython versão 3.12 instalada em seu ambiente de desenvolvimento
TypeScript instalado em seu ambiente de desenvolvimento ou instalado globalmente usando o compilador npm:
npm install -g typescriptDocker instalado em seu ambiente de desenvolvimento
Um sistema de controle de versão, como o Git, para manter o código-fonte da solução (recomendado)
Um ambiente de desenvolvimento integrado (IDE) ou editor de texto com suporte para Python e TypeScript (altamente recomendado)
Limitações
A solução foi testada somente em máquinas com Linux ou macOS em execução.
Na versão atual, a solução não suporta a integração da Amazon DataZone e, Centro de Identidade do AWS IAM por padrão. No entanto, é possível configurá-la para ser compatível com essa integração.
Versões do produto
Python versão 3.12
Arquitetura
O diagrama a seguir mostra uma arquitetura de referência de data mesh. A arquitetura é baseada na Amazon DataZone e usa o Amazon Simple Storage Service (Amazon S3) AWS Glue Data Catalog e como fontes de dados. O Serviços da AWS que você usa com a Amazon DataZone em sua implementação de malha de dados pode ser diferente, com base nos requisitos da sua organização.

Nas contas do produtor, os dados brutos são adequados para consumo em sua forma atual ou são transformados para consumo por meio do uso AWS Glue. Os metadados técnicos dos dados são armazenados no Amazon S3 e avaliados usando AWS Glue um rastreador de dados. A qualidade dos dados é medida usando o AWS Glue Data Quality. O banco de dados de origem no catálogo de dados é registrado como um ativo no DataZone catálogo da Amazon. O DataZone catálogo da Amazon é hospedado na conta de governança central usando trabalhos de fonte DataZone de dados da Amazon.
A conta de governança central hospeda o DataZone domínio da Amazon e o portal de DataZone dados da Amazon. Os produtores e consumidores Contas da AWS de dados estão associados ao DataZone domínio da Amazon. Os DataZone projetos da Amazon dos produtores e consumidores de dados são organizados sob as unidades de DataZone domínio correspondentes da Amazon.
Os usuários finais dos ativos de dados fazem login no portal de DataZone dados da Amazon usando suas credenciais AWS Identity and Access Management (IAM) ou login único (com integração por meio do IAM Identity Center). Eles pesquisam, filtram e visualizam informações de ativos (por exemplo, informações sobre qualidade de dados ou metadados comerciais e técnicos) no catálogo de DataZone dados da Amazon.
Depois que um usuário final encontra o ativo de dados que deseja, ele usa o recurso de DataZone assinatura da Amazon para solicitar acesso. O proprietário dos dados da equipe de produtores recebe uma notificação e avalia a solicitação de assinatura no portal de DataZone dados da Amazon. O proprietário dos dados aprova ou rejeita a solicitação de assinatura com base em sua validade.
Depois que a solicitação de assinatura é concedida e atendida, o ativo é acessado na conta do consumidor para as seguintes atividades:
Desenvolvimento de modelos de IA/ML usando Amazon AI SageMaker
Analytics e relatórios usando o Amazon Athena e o Amazon Quick Suite
Ferramentas
Serviços da AWS
O Amazon Athena é um serviço de consultas interativas que ajuda a análise de dados diretamente no Amazon Simple Storage Service (Amazon S3) usando SQL padrão.
AWS Cloud Development Kit (AWS CDK)é uma estrutura de desenvolvimento de software que ajuda você a definir e provisionar Nuvem AWS infraestrutura em código.
AWS CloudFormationajuda você a configurar AWS recursos, provisioná-los de forma rápida e consistente e gerenciá-los durante todo o ciclo de vida em Contas da AWS e. Regiões da AWS
DataZoneA Amazon é um serviço de gerenciamento de dados que ajuda você a catalogar, descobrir, compartilhar e controlar dados armazenados localmente e em fontes terceirizadas. AWS
O Amazon Quick Suite é um serviço de business intelligence (BI) em escala de nuvem que facilita a visualização, a análise e a geração de relatórios dos seus dados em um único painel.
O Amazon SageMaker AI é um serviço gerenciado de aprendizado de máquina (ML) que ajuda você a criar e treinar modelos de ML e depois implantá-los em um ambiente hospedado pronto para produção.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
O Amazon Simple Queue Service (Amazon SQS) fornece uma fila hospedada segura, durável e disponível que ajuda a integrar e desacoplar sistemas e componentes de software distribuídos.
O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos baseado na nuvem que ajuda você a armazenar, proteger e recuperar qualquer quantidade de dados.
Repositório de código
A solução está disponível no repositório GitHub data-mesh-datazone-cdk-cloudformation
Épicos
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Clonar o repositório. | Para clonar o repositório, execute o seguinte comando em seu ambiente de desenvolvimento local (Linux ou macOS):
| Arquiteto de nuvem, DevOps engenheiro |
Criar o ambiente | Para criar o ambiente virtual do Python, execute os seguintes comandos:
| Arquiteto de nuvem, DevOps engenheiro |
Inicialize a conta. | Para inicializar a conta de governança central usando AWS CDK, execute o seguinte comando:
Faça login no Console de gerenciamento da AWS, abra o console central da conta de governança e obtenha o Amazon Resource Name (ARN) da função de AWS CDK execução. | Arquiteto de nuvem, DevOps engenheiro |
Construa o arquivo | Para construir o arquivo
| Arquiteto de nuvem, DevOps engenheiro |
Confirme a criação do modelo. | Certifique-se de que o arquivo de CloudFormation modelo seja criado no | Arquiteto de nuvem, DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Modifique o arquivo de configuração. | No arquivo
Mantenha os parâmetros restantes vazios. | Arquiteto de nuvem, DevOps engenheiro |
Atualize a configuração do DataZone glossário da Amazon. | Para atualizar a configuração do DataZone glossário da Amazon no
| Arquiteto de nuvem, DevOps engenheiro |
Atualize a configuração do formulário de DataZone metadados da Amazon. | Para atualizar a configuração do formulário de DataZone metadados da Amazon no
| Arquiteto de nuvem, DevOps engenheiro |
Exporte as AWS credenciais. | Para exportar AWS credenciais para seu ambiente de desenvolvimento para a função do IAM com permissões administrativas, use o seguinte formato:
| Arquiteto de nuvem, DevOps engenheiro |
Sintetize o modelo. | Para sintetizar o CloudFormation modelo, execute o seguinte comando:
| Arquiteto de nuvem, DevOps engenheiro |
Implante a solução. | Para implantar a solução, execute o seguinte comando:
| Arquiteto de nuvem, DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Implante o modelo. | Implante o CloudFormation modelo localizado
| Arquiteto de nuvem, DevOps engenheiro |
Atualize ARNs o. | Para atualizar a lista de funções ARNs de CloudFormation StackSet execução das contas dos membros, use o código a seguir:
| Arquiteto de nuvem, DevOps engenheiro |
Sintetize e implante. | Para sintetizar o CloudFormation modelo e implantar a solução, execute os seguintes comandos:
| Arquiteto de nuvem, DevOps engenheiro |
Associe a conta de membro. | Para associar a conta de membro à conta de governança central, faça o seguinte:
| Arquiteto de nuvem, DevOps engenheiro |
Atualize os parâmetros. | Para atualizar os parâmetros específicos da conta de membro no arquivo de configuração em
| Arquiteto de nuvem, DevOps engenheiro |
Sintetize e implante o modelo. | Para sintetizar o CloudFormation modelo e implantar a solução, execute os seguintes comandos:
| Arquiteto de nuvem, DevOps engenheiro |
Adicione contas de membro. | Para criar e configurar contas de membros adicionais na solução de dados, repita as etapas anteriores para cada conta de membro. Essa solução não diferencia entre produtores e consumidores de dados. | Arquiteto de nuvem, DevOps engenheiro |
| Tarefa | Description | Habilidades necessárias |
|---|---|---|
Desassocie as contas de membro. | Para desassociar as contas, faça o seguinte:
| Arquiteto de nuvem, DevOps engenheiro |
Exclua as instâncias de pilha. | Para excluir as instâncias da CloudFormation pilha, faça o seguinte:
| Arquiteto de nuvem, DevOps engenheiro |
Destrua todos os recursos. | Para destruir recursos, implemente as seguintes etapas em seu ambiente de desenvolvimento local (Linux ou macOS):
| Arquiteto de nuvem, DevOps engenheiro |
Recursos relacionados
Mais informações
Objetivos
A implementação deste padrão resulta no seguinte:
Propriedade descentralizada dos dados: transfira a propriedade dos dados de uma equipe central para equipes que representam os sistemas de origem, as unidades de negócios ou os casos de uso da sua organização.
Pensamento voltado ao produto: adote uma mentalidade baseada em produtos que inclua clientes, o mercado e outros fatores ao considerar os ativos de dados em sua organização.
Governança federada: melhore as barreiras de proteção de segurança, os controles e a conformidade em todos os produtos de dados da sua organização.
Suporte para várias contas e vários projetos: ofereça suporte para o compartilhamento e a colaboração de dados de maneira eficiente e segura entre as unidades de negócios ou projetos de sua organização.
Monitoramento e notificações centralizados ‒ Monitore os recursos de nuvem de sua malha de dados usando a Amazon CloudWatch e notifique os usuários quando uma nova conta de membro for associada.
Escalabilidade e extensibilidade: adicione novos casos de uso à data mesh à medida que sua organização evolui.
Escopo da solução
Ao usar esta solução, você pode começar aos poucos e escalar à medida que avança em sua jornada de data mesh. Geralmente, quando uma conta de membro adota a solução de dados, ela contém configurações de conta específicas para a organização, projeto ou unidade de negócios. Essa solução acomoda essas diversas Conta da AWS configurações ao oferecer suporte aos seguintes recursos:
AWS Glue Data Catalog como fonte de dados para a Amazon DataZone
Gerenciamento do domínio de DataZone dados da Amazon e do portal de dados relacionado
O gerenciamento da adição de contas de membros na solução de dados baseada em data mesh
Gestão de DataZone projetos e ambientes da Amazon
Gerenciamento de DataZone glossários e formulários de metadados da Amazon
O gerenciamento de perfis do IAM que correspondem aos usuários da solução de dados baseada em data mesh
A notificação de usuários da solução de dados baseada em data mesh
O monitoramento da infraestrutura de nuvem provisionada
Essa solução usa AWS CDK e implementa CloudFormation a infraestrutura em nuvem. Ele costuma CloudFormation fazer o seguinte:
Definir e implementar recursos de nuvem em um nível mais baixo de abstração.
Implemente recursos de nuvem a partir do Console de gerenciamento da AWS. Ao usar esta abordagem, você pode implantar a infraestrutura sem um ambiente de desenvolvimento.
A solução de malha de dados é usada AWS CDK para definir recursos em um nível de abstração mais alto. Como resultado, a solução fornece uma abordagem desacoplada, modular e escalável ao escolher a ferramenta relevante para implantar os recursos em nuvem.
Próximas etapas
Você pode entrar em contato com AWSespecialistas
A natureza modular desta solução oferece suporte à criação de soluções de gerenciamento de dados com diferentes arquiteturas, como data fabric e data lakes. Além disso, com base nos requisitos da sua organização, você pode estender a solução para outras fontes de DataZone dados da Amazon.