Verificações de qualidade de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Verificações de qualidade de dados

A qualidade dos dados é uma parte integrante, mas muitas vezes negligenciada, do processo de limpeza de dados. O diagrama a seguir mostra como as verificações de qualidade de dados se encaixam no ciclo de vida de automação e controle de acesso da engenharia de dados.

Diagrama de qualidade de dados

A tabela a seguir dá uma visão geral das diferentes soluções de qualidade de dados com base no caso de uso.

Caso de uso

Solução

Exemplo

Solução no-code para adicionar condições de qualidade em nível de coluna ou de tabela

AWS Glue DataBrew

Verifica se todos os valores da coluna estão entre 1 e 12, ou se uma tabela ou coluna está vazia

Código personalizado adicionado a um trabalho do AWS Glue ou a uma solução no-code (em versão prévia) para adicionar condições de qualidade em nível de coluna ou de tabela

AWS Glue Data Quality

Verifica se a coluna não first_name é nula ou se phone_number contém somente números ou funções and/or estatísticas do operador “+”, como média ou soma

Verificações personalizadas

ETL de sua escolha, como o AWS Lambda, AWS Glue ou Amazon EMR

Verifica se o valor da coluna A é sempre maior que o valor correspondente da coluna B e da coluna C, ou se o valor da coluna continent está sempre geograficamente correto e derivado da coluna city

Solução sofisticada com um relatório de métricas, validação de restrições e sugestões de restrições

Deequ

Verifica se CompletenessConstraint da Completude da métrica da coluna review_id é igual a 1