Arquitetura de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Arquitetura de dados

Projete e desenvolva uma arquitetura de dados e analytics adequada à finalidade.

Uma arquitetura de dados e analytics bem projetada é essencial para obter insights acionáveis. Ao projetar e desenvolver uma arquitetura de dados e analytics adequada à finalidade, as organizações reduzem a complexidade, o custo e a dívida técnica, ao mesmo tempo em que obtêm insights valiosos de seus volumes de dados cada vez maiores. Ao se alinharem aos princípios do AWS CAF, as empresas podem criar uma arquitetura de dados que se integre perfeitamente à plataforma existente. Esse alinhamento posiciona as organizações para capitalizar as vantagens oferecidas pelas tecnologias modernas de processamento e analytics de dados.

A arquitetura de dados e analytics é o esquema dos recursos de uma organização para extrair valor dos dados. Ela ajuda a organização a obter novos insights de negócios e é um catalisador para o crescimento dos negócios. Para atender às necessidades de negócios, uma arquitetura de dados moderna deve se alinhar às metas de negócios de curto e longo prazo e ser exclusiva para os requisitos culturais e contextuais da organização. No mundo atual, a implementação e a adoção bem-sucedidas de uma arquitetura de dados e analytics são baseadas no princípio de fornecer os dados certos no momento certo para o consumidor certo.

Isso é obtido planejando e organizando como os ativos de dados de uma organização são modelados, física ou logicamente, como os dados são protegidos e como esses modelos de dados interagem entre si para resolver problemas de negócios, derivar padrões desconhecidos e gerar insights.

Iniciar

Definir recurso abrangente

No ambiente de negócios atual, é fundamental que a plataforma moderna de data analytics obtenha valor dos dados para dar suporte a vários domínios da organização. Em vez de adotar uma abordagem de arquitetura de dados única, a arquitetura de dados moderna deve incluir conjuntos de ferramentas e padrões com propósito específico e otimizados para casos de uso particulares. A arquitetura deve ser capaz de desenvolver e incluir elementos básicos, como data lakes escaláveis, serviços de analytics específicos, acesso unificado a dados e governança unificada.

Organizar zonas de dados

A forma como os dados são organizados e armazenados para acesso rápido e fácil é um aspecto essencial da arquitetura de dados. Isso pode ser feito configurando zonas de dados personalizadas em um data lake. As zonas de dados são categorizadas da seguinte forma:

  • Dados brutos coletados de fontes heterogêneas

  • Dados selecionados e transformados para apoiar as necessidades analíticas de cada domínio

  • Data marts baseados em casos de uso ou produtos para necessidades de relatórios

  • Dados expostos externamente com controles de segurança e conformidade

Planejar a agilidade e a democratização dos dados

A eficácia de uma plataforma de analytics depende da velocidade do provisionamento de dados, bem como da democratização dos dados provisionados para consumo. A agilidade do provisionamento de dados é alcançada pela capacidade da arquitetura de dados de adquirir e processar dados de várias maneiras, como em tempo real, quase em tempo real, em lote, em microlote ou híbrido, com base no caso de uso. A democratização dos dados é alcançada definindo fluxos de trabalho de compartilhamento de dados e controle de acesso que são monitorados pelos administradores de dados. A implementação de um marketplace de dados é um dos facilitadores da democratização dos dados.

Definair a entrega segura de dados

Uma arquitetura de dados moderna é uma fortaleza para o mundo exterior em segurança, mas permite o fácil acesso para funcionários ou usuários de dados, conforme definido por suas funções de trabalho, e segue restrições de conformidade, como a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA), informações de identificação pessoal (PII), Regulamento Geral de Proteção de Dados (RGPD) e assim por diante. Isso é obtido por meio de métodos de controle de acesso baseado em perfil (RBAC) e controle de acesso baseado em tags (TBAC). Na AWS, as tags são usadas para controlar o acesso aos dados para simplificar o gerenciamento do controle de acesso. Faça isso de acordo com os princípios descritos na perspectiva de segurança do AWS CAF.

Planejar a economia

Os data warehouses tradicionais fornecem computação e armazenamento fortemente acoplados com um alto custo de utilização de recursos. Uma arquitetura moderna desacopla a computação e o armazenamento e implementa o armazenamento em camadas com base no ciclo de vida dos dados. Por exemplo, na AWS, você pode usar o Amazon Simple Storage Service (Amazon S3) para controlar os custos e desacoplar o armazenamento de dados da computação. As classes de armazenamento do Amazon S3 foram criadas especificamente para fornecer o menor custo de armazenamento para diferentes padrões de acesso. Além disso, as ferramentas de computação da AWS (como Amazon Athena, AWS Glue, Amazon Redshift e Amazon SageMaker Runtime) não têm servidor, então você não precisa gerenciar a infraestrutura e paga somente pelo que usa. 

Avançado

A arquitetura de dados moderna pode ser aprimorada ainda mais para aumentar a amplitude do uso de dados, desde analytics padrão que apoia funções operacionais e de negócios até recursos mais complexos que apoiam as previsões e os insights, além de ajudar a acelerar a tomada de decisões. Para conseguir isso, a arquitetura oferece suporte aos recursos descritos nas seções a seguir.

Noções básicas sobre engenharia de atributos

A engenharia de atributos usa machine learning e envolve a configuração de arquivos de atributos ou marts de atributos. As equipes de ciência de dados criam novos atributos (atributos derivados) para modelos de aprendizado supervisionados e não supervisionados e os armazenam em marts de atributos para simplificar a transformação e aumentar a precisão dos dados. As empresas podem reutilizar os atributos em vários modelos de analytics, o que melhora a velocidade de entrada no mercado.

Planejar para desnormalizar conjuntos de dados

A criação de conjuntos de dados ou data marts desnormalizados pode simplificar significativamente os conjuntos de dados para usuários corporativos, disponibilizando prontamente os dados necessários em um único local e aumentando a velocidade do analytics. Se projetado com cuidado, um registro pode ser compatível com vários modelos de uso e reduzir o ciclo de vida geral do desenvolvimento. A governança efetiva de conjuntos de dados desnormalizados também é significativa por dois motivos. A implementação de dados desnormalizados pode criar um grande número de conjuntos de dados redundantes, o que pode se tornar um desafio de gerenciar em grande escala. Além disso, esses conjuntos de dados poderão ser cada vez mais difíceis de reutilizar se não forem modelados corretamente. 

Portabilidade e escalabilidade do projeto

As grandes organizações raramente têm todas as suas aplicações e usuários em uma única plataforma de dados. Seus armazenamentos de dados e aplicações são normalmente distribuídos em plataformas legadas on-premises e na nuvem, dificultando que as equipes de analytics misturem e mesclem dados. Recomendamos que você coloque os dados em contêineres com base em características como domínio, geografia, casos de uso de negócios, e assim por diante. Essa conteinerização aumenta a portabilidade entre várias plataformas e aplicações e oferece suporte a um consumo mais eficiente. Segmentar dados em contêineres e expô-los por meio de APIs ajuda você a escalar sua arquitetura de dados com mais facilidade. Ela permite o fluxo de dados híbrido de ponta a ponta e ajuda as aplicações on-premises e baseadas na nuvem a funcionarem sem problemas.

Excel

À medida que uma arquitetura de analytics moderna é desenvolvida dentro de uma organização, é importante gerenciar essa mudança introduzindo conceitos reutilizáveis. Esses conceitos aumentam a durabilidade e a adoção, mantendo os custos sob controle. Alguns dos conceitos a serem considerados são analisados nas seções a seguir.

Projetar um framework configurável

As organizações geralmente criam vários modelos complexos para atender às suas necessidades de negócios exclusivas. Esses modelos exigem a criação de vários pipelines de dados e recursos projetados. Com o tempo, isso cria uma redundância significativa e aumenta os custos operacionais. A criação de um framework que incorpora um conjunto de modelos básicos configuráveis e orientados por parâmetros reduz o tempo de desenvolvimento e os custos operacionais. O mecanismo de analytics pode implementar esses modelos configuráveis para fornecer a saída desejada.

Planejar criar um mecanismo analítico unificado

Os problemas de negócios são únicos e geralmente exigem tecnologias personalizadas para atender aos requisitos, resultando em vários mecanismos analíticos em uma organização. Projetar e desenvolver uma interface unificada de mecanismo analítico baseada em IA que pode ser compatível com vários paradigmas de programação simplifica o uso e reduz os custos.

Definir DataOps

A maioria dos profissionais de dados dedica uma quantidade significativa de tempo à execução de operações de dados, como localizar os dados certos, transformar, modelar e assim por diante. Ter operações de dados ágeis (DataOps) pode aprimorar significativamente a arquitetura de dados ao eliminar os silos de engenheiros de dados, cientistas de dados, proprietários de dados e analistas. O DataOps permite uma melhor comunicação entre as equipes, reduz o tempo de ciclo e garante a alta qualidade dos dados. As arquiteturas de dados e analytics passaram por várias transformações ao longo do tempo devido às mudanças nas necessidades de negócios e aos avanços tecnológicos. Uma organização deve se esforçar para desenvolver, implementar e manter uma arquitetura de dados e analytics que evolua com o tempo e apoie seus negócios.