Preparação e limpeza de dados

A preparação e a limpeza de dados são uma das etapas mais importantes, porém mais demoradas, do ciclo de vida dos dados. O diagrama a seguir mostra como a etapa de preparação e limpeza de dados se encaixa no ciclo de vida de automação e controle de acesso da engenharia de dados.

Confira alguns exemplos de preparo ou limpeza de dados:

Mapeamento de colunas de texto para códigos
Ignorar colunas vazias
Preencher campos de dados vazios com0, None ou ''
Anonimização e mascaramento de informações de identificação pessoal (PII)

Se você tem uma grande workload com uma variedade de dados, recomendamos que você use o Amazon EMR ou o AWS Glue para suas tarefas de preparação e limpeza de dados. O Amazon EMR e o AWS Glue trabalham com dados não estruturados, semiestruturados e relacionais, e ambos podem usar o Apache Spark para criar um DataFrame ou um DynamicFrame para trabalhar com processamento horizontal. Além disso, você pode usar o AWS Glue DataBrew para limpar e processar dados com uma abordagem sem código. Além disso, DataBrew pode criar o perfil do seu conjunto de dados com estatísticas de colunas, fornecer linhagens de dados e incluir regras de qualidade de dados para todas as colunas ou para colunas especificadas.

Para workloads menores que não exigem processamento distribuído e podem ser concluídas em menos de 15 minutos, recomendamos que você use o AWS Lambda para preparação e limpeza de dados. O Lambda é uma opção econômica e leve para workloads menores. Para dados altamente seguros que não podem entrar na nuvem, recomendamos que você realize a anonimização de dados nas instâncias do Amazon Elastic Compute Cloud EC2 (Amazon) usando um servidor AWS Outposts.

É essencial escolher o serviço certo da AWS para preparação e limpeza de dados e entender as compensações envolvidas em sua escolha. Por exemplo, considere um cenário em que você está escolhendo entre o AWS Glue e o Amazon EMR. DataBrew O AWS Glue será ideal se o trabalho de ETL não for frequente. Um trabalho pouco frequente ocorre uma vez por dia, uma vez por semana ou uma vez por mês. Além disso, você pode presumir que seus engenheiros de dados são proficientes em escrever código Spark (para casos de uso de big data) ou criar scripts em geral. Se o trabalho for mais frequente, executar o AWS Glue constantemente pode sair caro. Nesse caso, o Amazon EMR fornece recursos de processamento distribuído e oferece uma versão sem servidor e baseada em servidor. Se seus engenheiros de dados não tiverem as habilidades certas ou se você precisar fornecer resultados rapidamente, essa DataBrew é uma boa opção. DataBrew pode reduzir o esforço de desenvolver código e acelerar o processo de preparação e limpeza de dados.

Depois que o processamento for concluído, os dados do processo de ETL serão armazenados na AWS. A escolha do armazenamento depende do tipo de dados com os quais você está lidando. Por exemplo, você pode trabalhar com dados não relacionais, como dados gráficos, dados de pares de chave/valor, imagens, arquivos de texto ou dados estruturados relacionais.

Conforme mostrado no diagrama a seguir, você pode usar os seguintes serviços da AWS para armazenamento de dados:

O Amazon S3 armazena dados não estruturados ou semiestruturados (por exemplo, arquivos, imagens e vídeos do Apache Parquet).
O Amazon Neptune armazena conjuntos de dados de grafos que você pode consultar usando SPARQL ou GREMLIN.
O Amazon Keyspaces (para Apache Cassandra) armazena conjuntos de dados compatíveis com o Apache Cassandra.
O Amazon Aurora armazena conjuntos de dados relacionais.
O Amazon DynamoDB armazena dados de chave/valor ou de documentos em um banco de dados NoSQL.
O Amazon Redshift armazena workloads para dados estruturados em um data warehouse.

Ao usar o serviço certo com as configurações corretas, você pode armazenar seus dados da maneira mais eficiente e eficaz. Isso minimiza o esforço envolvido na recuperação de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Coleta de dados

Verificações de qualidade de dados