As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Ativar validação da qualidade de dados
Você pode ativar as verificações de qualidade de dados fornecendo o cluster de origem e de destino IDs em seu prompt. O sistema executa seu aplicativo existente no cluster de origem para coletar metadados básicos para comparação.
Observação: somente as operações de gravação do Spark podem ser monitoradas quanto à qualidade dos dados.
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
Diferenças no fluxo de trabalho de qualidade de
O fluxo de trabalho segue as mesmas etapas do processo de atualização padrão com essas etapas adicionais na ordem acima:
-
[Após a etapa 3: revisão e personalização do plano]
-
Crie com a configuração atual: crie o aplicativo com a configuração atual para envio do cluster de origem.
-
Validar no cluster EMR de origem: execute o aplicativo original na versão de origem do Spark e colete metadados de saída para comparação básica.
-
-
[Após a etapa 7: Resumo da atualização] Resumo da qualidade dos dados: relatório de comparação da qualidade dos dados entre versões e análises.
Atualmente, a capacidade de incompatibilidade de qualidade de dados inclui:
-
Verificações de esquema: detecta alterações na estrutura da coluna: colunas ausentes ou recém-adicionadas, diferenças de tipo de dados e alterações de nulidade.
-
Verificações de valor (somente colunas numéricas e de string)
-
Compara mínimo, máximo e média (média somente para colunas numéricas).
-
Para strings, min e max são baseados na ordem lexicográfica.
-
-
Verificações estatísticas agregadas: compara o total de contagens de linhas entre as saídas de origem e de destino.
Validação da qualidade de dados: escopo e limitações
A Validação de Qualidade de Dados suporta a EC2 etapa EMR usando o comando spark-submit com a versão >= 3.0 do Spark e o cluster do EMR não pode ter > 1. StepConcurrencyLevel A Validação da Qualidade de Dados avalia as estatísticas nos nós do coletor de dados do plano de consulta do Spark (os metadados da fonte de dados/transformações não são capturados) e abrange operações comuns de gravação do Spark, incluindo gravações de arquivos, inserções de banco de dados, criação de tabelas e várias saídas de fontes de dados.