

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Framework da estratégia de dados
<a name="framework"></a>

O framework de estratégia de dados apresentadao neste guia é baseado nos seguintes princípios da arquitetura moderna de dados e analytics:

1. Use uma **camada de armazenamento integrada, econômica e escalável** para que cada produtor e consumidor de dados tenha os recursos técnicos para interagir com os dados.

1. **A segurança é obrigatória**. Aplique regras de privacidade de dados, forneça proteção de dados com criptografia, habilite a auditoria e forneça conformidade automatizada.

1. **Controle os dados para compartilhá-los** em toda a empresa. Forneça um catálogo de dados exclusivo e um glossário de negócios para que os usuários possam encontrar e usar os dados de que precisam.

1. Selecione o **serviço certo para o trabalho certo.** Considere a funcionalidade, a escalabilidade, a latência de dados, o esforço necessário para executar o serviço, a resiliência, a integração e a automação ao escolher um componente.

1. Use **inteligência artificial (IA) e machine learning (ML)**.

1. Forneça **competência em dados** e ferramentas com **abstrações para pessoas de negócios**.

1. **Teste as hipóteses** de suas iniciativas de dados e **avalie seus resultados**.

O framework de dados usa a abordagem de [trabalhar com base na experiência do cliente](https://docs.aws.amazon.com/whitepapers/latest/building-cloud-operating-model/step-1.-work-backwards-from-the-customer.html). Esse método, usado na Amazon e na AWS, segue cinco etapas:

1. Entreviste usuários nas áreas de negócios da sua empresa. Selecione problemas e oportunidades de negócios que podem ser resolvidos por iniciativas de dados.

1. Defina os resultados comerciais esperados nas áreas de negócios.

1. Priorize as iniciativas que tenham o maior impacto nos negócios.

1. Identifique o compartilhamento de dados e os recursos técnicos para alcançar resultados comerciais e agrupe-os em projetos de capacitação.

1. Identifique funções e responsabilidades para viabilizar iniciativas baseadas em dados e analise a formação de equipes multidisciplinares.

As seguintes seções discutem as principais etapas desse processo:
+ [Descoberta de negócios](business-discovery.md)
+ [Avaliação da disponibilidade de dados](data-availability.md)
+ [Avaliação técnica](technical-assessment.md)
+ [Alinhamento de histórias com metas de negócios](align-stories-goals.md)

# Descoberta de negócios
<a name="business-discovery"></a>

Para realizar entrevistas cde negócios de forma eficaz, é importante entender as metas da sua** **empresa que dependem de dados em alto nível. Por exemplo, essas metas podem incluir:
+ Melhora da agilidade dos negócios
+ Viabilização da inovação avançada
+ Foco no cliente
+ Aumento da participação no mercado
+ Alcance de mercados globais
+ Lançamento de uma nova plataforma para clientes  

Depois de se alinhar às metas da sua empresa, você deve conversar com os membros da equipe nas áreas de negócios. No mínimo, concentre-se nas áreas que impactam os principais objetivos da sua empresa, mas se você tiver uma chance, converse com os membros das equipes em todas as áreas de negócios.

Nessa conversa de descoberta, você quer conhecer as metas de cada área de negócios ou unidade de negócios (BU), as métricas que elas usam para avaliar sua área e como o uso de dados pode afetar suas metas. Confira alguns exemplos de perguntas que podem ser feitas:
+ Quais são as principais metas da sua BU?
+ Como sua BU contribuirá para alcançar as metas da empresa?
+ Quais são os principais projetos em sua BU?
+ Como cada projeto depende dos dados?

É importante obter visibilidade dos principais projetos, de seu cronograma, de como eles dependem dos dados e de como se alinham ou apoiam as metas da empresa. Exemplos de projeto incluem:
+ Melhorias na experiência do cliente por meio de interação omnicanal consistente e aumento da conscientização sobre as ações e problemas mais recentes do cliente
+ Criação de um mecanismo de recomendação com base no comportamento dos clientes para aumentar a taxa de conversão e o engajamento
+ Para produtos financeiros on-line, cálculo de risco mais rápido para aprovar o crédito do cliente, para evitar demorar muito e perder o cliente para outra instituição financeira
+ Melhor precisão da previsão de vendas para reduzir a perda de suprimentos
+ Redução da perda por fraudes otimizando a detecção de fraudes em tempo real

# Avaliação da disponibilidade de dados para negócios
<a name="data-availability"></a>

Use perguntas de acompanhamento, como as seguintes, para entender as lacunas entre o estado atual da disponibilidade de dados e o que a BU deseja alcançar:
+ Como os dados apoiam seus projetos e suas metas de negócios atuais?
+ É difícil obter os dados certos para usar e tomar decisões?
+ O quão automatizado é o processo de obtenção dos dados? Quais são as etapas manuais envolvidas, se houver?
+ Quando os dados ficam disponíveis, sua equipe consegue entender e trabalhar com eles, ou você precisa converter os dados para o seu domínio comercial?
+ Você recebe dados em tempo hábil para apoiar suas decisões de negócios?
  + Como obter dados mais rapidamente melhoraria seus negócios? Para promover melhorias, com que rapidez os dados devem ser disponibilizados?
+ Seus tomadores de decisão estão deixando de receber algum dado?
  + Se sim, quais dados estão faltando?
  + Qual seria a vantagem de ter esses dados?
  + Como seus principais projetos são afetados pela falta de dados?
+ Você tem algum desafio associado aos regulamentos de conformidade, como o Regulamento Geral de Proteção de Dados (RGPD) ou outros padrões?
+ Sua BU tem produtos de dados disponíveis para permitir que as aplicações executem ações?
+ Sua área é capaz de fornecer modelos de machine learning para melhorar seus negócios? Se não, outras BUs apoiam seus negócios nessa área?
+ Você tem conhecimento de algum dado dentro da empresa que atualmente não está disponível para sua BU, mas que apoiaria seus projetos ou impulsionaria melhorias em sua área?
  + Qual seria?
+ Você confia na qualidade dos dados disponíveis para sua área?
  + Sua equipe realiza seu próprio processo de limpeza de dados antes de você usar os dados?
  + Sua equipe realiza seu próprio processo de qualidade antes de você usar os dados?
  + Quando sua equipe trabalha na disponibilidade de dados e produz novos produtos de dados para análise, aprimoramento e uma visão agregada, ela pode compartilhar esses produtos com outras BUs da sua empresa?

# Avaliação técnica
<a name="technical-assessment"></a>

Uma avaliação técnica é importante porque fornece um mapa dos recursos técnicos atuais que sua empresa possui. A avaliação abrange governança de dados, ingestão de dados, transformação de dados, compartilhamento de dados, plataforma de machine learning (ML), processo e automação. 

Confira alguns exemplos de perguntas que você pode fazer durante a avaliação técnica, por equipe. Você pode incluir perguntas com base no seu contexto.

## Equipe de engenharia de dados
<a name="data-engineering"></a>
+ Quais são os desafios atuais associados à ingestão de dados para sua equipe? 
+ Há alguma fonte de dados externa ou interna de que sua equipe precisa que não esteja disponível para ingestão? Por que ela não está disponível?
+ De quais tipos de fontes de dados você ingere dados (por exemplo, bancos de dados MySQL, API do Salesforce, arquivos recebidos, dados de navegação do site)?
+ Quanto tempo leva para ingerir dados de uma nova fonte de dados?
+ Os processos de ingestão de dados de uma nova fonte são automatizados?
+ É fácil para uma equipe de desenvolvimento publicar dados transacionais para analytics de sua aplicação?
+ Você tem ferramentas para cargas completas ou incrementais (em lotes ou microlotes) da sua fonte de dados?
+ Você tem ferramentas de captura de dados de alteração (CDC) para cargas contínuas de seus bancos de dados?
+ Você tem opções de fluxo de dados para ingestão de dados?
+ Como você realiza a transformação de dados para dados em lote e em tempo real?
+ Como você gerencia a orquestração dos fluxos de trabalho de transformação de dados?
+ Quais atividades você realiza com mais frequência: descoberta e catalogação de dados, ingestão de dados, transformação de dados, ajuda a analistas de negócios, ajuda a cientistas de dados, governança de dados, treinamento de equipes e usuários?
+ Quando um conjunto de dados é criado, como ele é classificado quanto à privacidade dos dados? Como você limpa esse conjunto de dados para torná-lo significativo para seus consumidores internos?
+ A administração e a governança de dados são centralizadas ou descentralizadas?
+ Como você aplica a governança de dados? Você tem um processo automatizado?
+ Quem é o proprietário e o administrador dos dados em cada fase do pipeline: ingestão de dados, processamento de dados, compartilhamento de dados e uso de dados? Existe um conceito de domínio de dados para determinar os proprietários e administradores?
+ Quais são os principais desafios no compartilhamento de conjuntos de dados dentro da organização com controle de acesso?
+ Você usa a infraestrutura como código (IaC) para implantar e gerenciar pipelines de dados?
+ Você tem uma estratégia de data lake? 
  + Seu data lake está distribuído ou centralizado em toda a organização? 
+ Como seu catálogo de dados é organizado? É corporativo ou por setor?
+ Você tem uma abordagem de data lakehouse em vigor?
+ Você usa ou planeja usar conceitos de data mesh?

Você pode complementar essas perguntas com o [AWS Well-Architected Framework Data Analytics Lens](https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/analytics-lens.html).

## Equipe de análise de negócios
<a name="business-analysis"></a>
+ Como você descreveria as seguintes características dos dados disponíveis para seu trabalho:
  + Limpeza
  + Qualidade
  + Classificação
  + Metadados
  + Significado dos negócios
+ Sua equipe participa das definições do glossário de negócios dos conjuntos de dados em seu domínio?
+ Qual é o impacto de não ter os dados necessários para realizar seu trabalho no momento em que você precisa?
+ Você tem algum exemplo de cenário em que você não tem acesso aos dados ou leva muito tempo para obter os dados? Quanto tempo leva para você obter os dados de que precisa?
+ Com que frequência você usa um conjunto de dados menor do que o necessário devido a problemas técnicos ou ao tempo de processamento?
+ Você tem um ambiente sandbox com a escala e as ferramentas de que precisa?
+ Você pode realizar testes A/B para validar hipóteses?
+ Você sente falta de alguma ferramenta necessária para realizar seu trabalho?
  + Quais tipos de ferramentas?
  + Por que elas não estão disponíveis?
+ Há alguma atividade importante que você não tem tempo para realizar?
+ Quais atividades consomem mais seu tempo?
+ Como as visões de negócio são atualizadas?
  + Elas são programadas e gerenciadas automaticamente?
+ Em quais cenários você precisaria de dados mais recentes do que os que você obtém?
+ Como você compartilha análises? Quais ferramentas e processos você usa para compartilhar?
+ Você costuma criar novos produtos de dados e disponibilizá-los para outras equipes?
  + Qual é o seu processo para compartilhar produtos de dados com outras áreas de negócios ou em toda a empresa?

## Equipes de ciência de dados (para determinar a implantação do modelo)
<a name="data-science"></a>
+ Como você descreveria as seguintes características dos dados disponíveis para seu trabalho:
  + Limpeza
  + Qualidade
  + Classificação
  + Metadados
  + Significado
+ Você tem alguma ferramenta automatizada para treinar, testar e implantar modelos de machine learning (ML)?
+ Você tem opções de tamanho de máquina para realizar cada etapa na criação e implantação de um modelo de ML?
+ Como os modelos de ML são colocados em produção?
+ Quais são as etapas para implantar um novo modelo? O quão automatizadas são elas?
+ Você tem os componentes para treinar, testar e implantar modelos de ML para dados em lote e em tempo real? 
+ Você pode usar e processar um conjunto de dados grande o suficiente para representar os dados necessários para criar o modelo?
+ Como monitorar modelos e executar ações para treiná-los novamente?
+ Como você avalia o impacto dos modelos em sua empresa?
+ Você pode realizar testes A/B para validar hipóteses para as equipes de negócios?

Para perguntas adicionais, consulte o [AWS Well-Architected Framework Machine Learning Lens](https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/machine-learning-lens.html).

# Alinhamento de histórias com metas de negócios
<a name="align-stories-goals"></a>

Depois de realizar avaliações comerciais e técnicas, recomendamos que você crie um diagrama que inclua um conjunto de histórias para cada nível de maturidade de uso de dados. Essa visualização facilita o alinhamento do uso de dados com as metas comerciais da sua empresa. Por exemplo, um resultado de negócio de detecção de fraudes quase em tempo real requer uma história de capacidades de ações em tempo quase real.  

As histórias são capacidades técnicas, mecanismos de compartilhamento de dados, pessoas e processos necessários para atingir as metas de negócios. Você escreve os resultados do negócio no lado direito do diagrama com base em suas entrevistas de descoberta de negócios e preenche o status de cada história com base em avaliações técnicas. Em seguida, você pode selecionar as histórias em que sua empresa deve trabalhar e criar um roteiro.  

O diagrama a seguir mostra se cada história é necessária, com base nos resultados de negócio. Também mostra o status atual de cada história com base nas informações coletadas nas avaliações técnicas. O diagrama geralmente é seguido por um relatório que explica cada status em detalhes.

![\[Visualização das histórias de capacitação para cada fase de maturidade de dados\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/strategy-aws-data/images/enablement-stories.png)


Você começa pelo lado direito (*resultados de negócio*) e segue até o lado esquerdo para viabilizar as histórias. Por exemplo, para habilitar uma história na terceira etapa (*Insights e relatórios*), você precisa habilitar suas dependências na segunda etapa (*Data lake*) e na primeira etapa (*Alicerce de dados*).

Com base na avaliação e nos requisitos de resultados de negócio, cada história é classificada como verde, amarela, cinza ou vermelha.
+ Verde significa que a história está pronta e pode ser escalada para gerar os resultados de negócio. Por exemplo, no diagrama, a história de ingestão do CDC na primeira etapa (*Alicerce de dados*) é verde, o que significa que a empresa tem as ferramentas e o processo para realizar a história da fonte de dados que possui. O *melhor resultado de negócio da experiência do cliente* exige a ingestão de dados relevantes do cliente e o enriquecimento com outros dados dentro da empresa, para entender melhor o cliente e fornecer personalização.
+ Amarelo significa que o recurso ou o processo existe, mas não está totalmente funcional ou não é compatível com a escala exigida pelo resultado de negócio. Por exemplo, no diagrama, a história do *Catálogo de dados centralizado* na segunda etapa (*Data lake*) é amarela. Isso indica que a empresa tem um catálogo de dados central, mas o catálogo não está totalmente preenchido com os metadados exigidos pelas outras etapas ou é usado por apenas algumas áreas de negócios. Essa classificação afeta os recursos de compartilhamento de dados na próxima etapa (*insights e relatórios*).
+ Cinza significa que a história não é obrigatória.
+ Vermelho significa que a história é exigida pelos resultados de negócio, mas não foi implementada. Por exemplo, no diagrama, a história de *Compartilhamento de dados* na etapa *Insights e relatórios* está vermelha. A criação de um modelo abrangente de machine learning para recomendações de clientes requer o agrupamento de conjuntos de dados, o que requer recursos de compartilhamento de dados. No entanto, essa história não foi implementada. Neste exemplo, o compartilhamento de dados também exige que os recursos na etapa do *Data lake* sejam totalmente funcionais, pelo menos para os conjuntos de dados que fazem parte dos modelos, mas você pode ver que a *Administração de dados* não foi implementada.

A história *Privacidade, proteção e conformidade de dados* (na etapa do *Data Lake*) é sempre obrigatória e fica mais relevante à medida que as regulamentações de privacidade de dados são impulsionadas por novos requisitos de proteção de dados. Por exemplo, o [Regulamento Geral de Proteção de Dados (RGPD)](https://gdpr.eu/what-is-gdpr/) começou nos EUA com a [Lei de Proteção de Dados do Consumidor da Virgínia (CDPA)](https://law.lis.virginia.gov/vacodefull/title59.1/chapter53/) e a [Lei de Privacidade do Consumidor da Califórnia (CCPA)](https://oag.ca.gov/privacy/ccpa), e já está em vigor em alguns países da América Latina, como a [Lei Geral de Proteção a Dados Pessoais (LGPD)](https://www.serpro.gov.br/privacidade-protecao-dados) no Brasil, a [Proteção de dados mexicana](https://www.dataguidance.com/notes/mexico-data-protection-overview) no México, a Proteção de dados na Colômbia, a [Lei 29733](https://www.leyes.congreso.gob.pe/Documentos/Leyes/29733.pdf) no Peru e as leis de [Proteção de Dados Pessoais na Argentina](http://servicios.infoleg.gob.ar/infolegInternet/anexos/320000-324999/323901/norma.htm).