# Avaliar qualidade de dados com o AWS
<a name="data-quality-gs-studio"></a>

 O AWS Glue Data Quality avalia e monitora a qualidade dos dados com base em regras que você define. Isso facilita a identificação dos dados que precisam de ação. No AWS Glue Studio, você pode adicionar nós de qualidade de dados ao trabalho visual para criar regras de qualidade de dados em tabelas no catálogo de dados. Você poderá, então, monitorar e avaliar as alterações nos conjuntos de dados à medida que eles evoluírem ao longo do tempo. Para obter uma visão geral de como trabalhar com a qualidade de dados do AWS Glue no AWS Glue Studio, veja o vídeo a seguir.

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/DUd5s_CFtBM/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/DUd5s_CFtBM)


 A seguir estão as etapas de alto nível de como você trabalha com o AWS Glue Data Quality: 

1. **Criar regras de qualidade de dados**: compile um conjunto de regras de qualidade de dados usando o compilador DQDL escolhendo conjuntos de regras integrados que você configura. 

1.  **Configurar um trabalho de qualidade de dados**: defina ações com base nos resultados de qualidade de dados e nas opções de saída. 

1.  **Salvar e executar um trabalho com qualidade de dados**: criar e executar um trabalho. Salvar o trabalho salvará os conjuntos de regras que você criou para o trabalho. 

1.  **Monitorar e analisar os resultados de qualidade dos dados**: analise os resultados da qualidade dos dados após a conclusão da execução do trabalho. Opcionalmente, agende o trabalho para uma data futura. 

## Benefícios
<a name="gs-data-quality-benefits"></a>

 Analistas de dados, engenheiros de dados e cientistas de dados podem usar o nó Evaluate Data Quality no AWS Glue Studio para analisar, configurar, monitorar e melhorar a qualidade dos dados do editor de trabalho visual. Os benefícios de usar o nó de qualidade de dados incluem: 
+  **Você pode detectar problemas de qualidade de dados**: você pode verificar problemas criando regras que verificam as características dos seus conjuntos de dados. 
+  **É fácil começar**: você pode começar com regras e ações pré-construídas. 
+  **Integração perfeita**: você pode usar nós de qualidade de dados no AWS Glue Studio porque o AWS Glue Data Quality é executado em cima do catálogo de dados do AWS Glue. 

# Avaliar a qualidade dos dados para trabalhos de ETL no AWS Glue Studio
<a name="tutorial-data-quality"></a>

Neste tutorial, você começa a usar o AWS Glue Data Quality no AWS Glue Studio. Você aprenderá a fazer o seguinte: 
+  Criar regras usando o compilador de regras da Data Quality Definition Language (DQDL). 
+  Especificar ações de qualidade de dados, dados a serem produzidos e o local de saída dos resultados de qualidade de dados. 
+  Analisar os resultados de qualidade dos dados. 

 Para praticar com um exemplo, revise a postagem do blog [https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/](https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/). 

## Etapa 1: adicionar o nó de transformação Evaluate Data Quality à tarefa visual
<a name="tutorial-data-quality-step1"></a>

Nesta etapa, você adiciona o nó Evaluate Data Quality à tarefa visual 

**Para adicionar o nó de qualidade de dados**

1.  No console Glue Studio do AWS, escolha **Visual com origem e destino** na seção **Criar tarefa** e, em seguida, escolha **Criar**. 

1.  Escolha um nó ao qual você deseja aplicar a transformação de qualidade de dados. Normalmente, isso será um nó de transformação ou uma fonte de dados. 

1.  Abra o painel de recursos à esquerda escolhendo o ícone “\$1”. Em seguida, procure **Evaluate Data Quality** na barra de pesquisa e escolha **Evaluate Data Quality** nos resultados da pesquisa. 

1.  O editor visual de tarefas mostrará a ramificação do nó de transformação **Evaluate Data Quality** a partir do nó selecionado. No lado direito do console, a guia **Transform** (Transformar) é aberta automaticamente. Se você precisar alterar o nó principal, escolha a guia **Propriedades do nó** e, em seguida, escolha o nó principal no menu suspenso. 

    Quando você escolhe um novo nó principal, uma nova conexão é feita entre o nó superior e o nó **Evaluate Data Quality** (Avaliar qualidade dos dados). Remova todos os nós principais indesejados. Somente um nó principal pode ser conectado a um nó **Evaluate Data Quality**. 

1.  A transformação Evaluate Data Quality oferece suporte a vários pais para que você possa validar as regras de qualidade de dados em vários conjuntos de dados. As regras que oferecem suporte a vários conjuntos de dados incluem ReferentialIntegrity, DatasetMatch, SchemaMatch, RowCountMatch e AggregateMatch. 

   Ao adicionar várias entradas à transformação Evaluate Data Quality, você precisa selecionar sua entrada “primária”. Sua entrada principal é o conjunto de dados para o qual você deseja validar a qualidade dos dados. Todos os outros nós ou entradas são tratados como referências. 

   Você pode usar a transformação Evaluate Data Quality para identificar registros específicos que falharam nas verificações de qualidade dos dados. Recomendamos que você escolha seu conjunto de dados principal porque novas colunas que sinalizam registros incorretos são adicionadas ao conjunto de dados primário. 

1.  Você pode especificar aliases para fontes de dados de entrada. Os aliases fornecem outra forma de referenciar a fonte da entrada quando você está usando a regra ReferentialIntegrity. Como somente uma fonte de dados pode ser designada como fonte primária, cada fonte de dados adicional adicionada exigirá um alias. 

   No exemplo a seguir, a regra ReferentialIntegrity especifica a fonte de dados de entrada pelo nome do alias e realiza uma comparação individual com a fonte de dados primária. 

   ```
   Rules = [
   	ReferentialIntegrity “Aliasname.name” = 1
   ]
   ```

## Etapa 2: criar uma regra usando DQDL
<a name="tutorial-data-quality-step2"></a>

Nesta etapa, você cria uma regra usando DQDL. Para este tutorial, você criará uma única regra usando o tipo de regra **Completeness**. Esse tipo de regra verifica a porcentagem de valores completos (não nulos) em uma coluna em relação a uma determinada expressão. Para obter mais informações sobre o uso de DQDL, consulte [DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html). 

1.  Na guia **Transformar**, adicione um **tipo de regra** clicando no botão **Inserir**. Isso adiciona o tipo de regra ao editor de regras, onde você pode inserir os parâmetros da regra. 
**nota**  
 Ao editar regras, verifique se as regras estão entre colchetes e certifique-se de que as regras estejam separadas por vírgulas. Por exemplo, uma expressão de regra completa terá a seguinte aparência:   

   ```
   Rules= [
       Completeness "year">0.8, Completeness "month">0.8
   ]
   ```
 Este exemplo especifica o parâmetro de completude para as colunas denominadas 'ano' e 'mês'. Para que a regra seja aprovada, essas colunas devem estar mais de 80% 'completas' ou ter dados em mais de 80% das instâncias para cada coluna respectiva. 

    Neste exemplo, pesquise e insira o tipo de regra **Completeness** (Completude). Isso adiciona o tipo de regra ao editor de regras. Esse tipo de regra tem a seguinte sintaxe: `Completeness <COL_NAME> <EXPRESSION>`. 

   A maioria dos tipos de regras exige que você forneça uma expressão como parâmetro para criar uma resposta booleana. Para obter mais informações sobre expressões DQDL compatíveis, consulte [Expressões DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-syntax). Em seguida, você adicionará o nome da coluna. 

1.  No compilador de regras DQDL, clique na guia **Esquema**. Use a barra de pesquisa para localizar o nome da coluna no esquema de entrada. O esquema de entrada exibe o nome da coluna e o tipo de dados. 

1.  No editor de regras, clique à direita do tipo de regra para inserir o cursor onde a coluna será inserida. Como alternativa, você pode digitar o nome da coluna na regra. 

    Por exemplo, na lista de colunas na lista de esquemas de entrada, clique no botão **Inserir** ao lado da coluna (neste exemplo, **ano**). Isso adicionará a coluna à regra. 

1.  Em seguida, no editor de regras, adicione uma expressão para avaliar a regra. Como o tipo de regra **Completeness** verifica a porcentagem de valores completos (não nulos) em uma coluna em relação a uma determinada expressão, insira uma expressão como `> 0.8`. Essa regra verificará se a coluna tem mais de 80% de valores completos (não nulos). 

## Etapa 3: configurar saídas de qualidade de dados
<a name="tutorial-data-quality-step3"></a>

 Depois de criar regras de qualidade de dados, você pode selecionar opções adicionais para especificar a saída do nó de qualidade de dados. 

1.  Em **Data quality transform output** (Saída de transformação de qualidade de dados), escolha uma das seguintes opções: 
   +  **Original data**: escolha para saída dos dados de entrada originais. Quando você escolhe essa opção, um novo nó filho “rowLevelOutcomes” é adicionado ao trabalho. O esquema corresponde ao esquema do conjunto de dados primário que foi passado como entrada para a transformação. Essa opção é útil se você quiser apenas transmitir os dados e rejeitar o trabalho quando ocorrerem problemas de qualidade. 

     Outro caso de uso é quando você deseja detectar registros incorretos que falharam nas verificações de qualidade dos dados. Para detectar registros incorretos, escolha a opção **Adicionar novas colunas para indicar erros na qualidade dos dados**. Essa ação adiciona quatro novas colunas ao esquema da transformação “rowLevelOutcomes”. 
     +  **DataQualityRulesPass** (matriz de strings): Fornece uma matriz de regras que passaram pelas verificações de qualidade dos dados. 
     +  **DataQualityRulesFail** (matriz de strings): Fornece uma matriz de regras que foram reprovadas pelas verificações de qualidade dos dados. 
     +  **DataQualityRulesSkip** (matriz de strings): Fornece uma matriz de regras que foram ignoradas. As regras a seguir não podem identificar registros de erro porque são aplicadas no nível do conjunto de dados. 
       +  AggregateMatch 
       +  ColumnCount 
       +  ColumnExists 
       +  ColumnNamesMatchPattern 
       +  CustomSql 
       +  RowCount 
       +  RowCountMatch 
       +  StandardDeviation 
       +  Média 
       +  ColumnCorrelation 
     +  **DataQualityEvaluationResult**: fornece o status “Aprovado” ou “Falha” no nível da linha. Observe que seu resultado geral pode ser FALHA, mas um determinado registro pode ser aprovado. Por exemplo, a regra RowCount pode ter falhado, mas todas as outras regras podem ter sido bem-sucedidas. Nesses casos, o status desse campo é “Aprovado”. 

1.  **Resultados de qualidade dos dados**: opte pela saída das regras configuradas e seu status de aprovação ou reprovação. Essa opção é útil se você quiser gravar seus resultados no Amazon S3 ou em outros bancos de dados. 

1. **Configurações de saída de qualidade de dados** (Opcional): escolha **Configurações de saída de qualidade de dados** para revelar o campo **Local do resultado da qualidade de dados**. Em seguida, clique em **Procurar** para procurar um local do Amazon S3 para definir como objetivo de saída de qualidade de dados. 

## Etapa 4: Configurar ações de qualidade de dados
<a name="tutorial-data-quality-step4"></a>

 Você pode usar ações para publicar métricas do CloudWatch ou para interromper trabalhos com base em critérios específicos. As ações só estarão disponíveis depois que você criar uma regra. Quando você escolhe essa opção, as mesmas métricas também são publicadas no Amazon EventBridge. Você pode usar essas opções para [criar alertas para notificação](https://docs.aws.amazon.com/glue/latest/dg/data-quality-alerts.html). 
+  **Em caso de falha no conjunto de regras**: você pode escolher o que fazer se um conjunto de regras falhar durante a execução do trabalho. Se você quiser que o trabalho falhe se a qualidade dos dados falhar, escolha quando o trabalho deve falhar selecionando uma das opções a seguir. Por padrão, essa ação não é selecionada e a tarefa concluirá sua execução mesmo se as regras de qualidade de dados falharem. 
  +  **Nenhum**: se você escolher **Nenhum** (padrão), o trabalho não falhará e continuará sendo executado apesar das falhas no conjunto de regras. 
  +  **Falha na tarefa após carregar os dados no destino**: a tarefa falha e nenhum dado é salvo. Para salvar os resultados, escolha um local do Amazon S3 onde os resultados de qualidade dos dados serão salvos. 
  +  **Falha na tarefa sem carregar os dados de destino**: essa opção causa falha na tarefa imediatamente quando ocorre um erro de qualidade de dados. Ela não carrega nenhum destino de dados, incluindo os resultados da transformação da qualidade dos dados. 

## Etapa 5: visualizar os resultados de qualidade dos dados
<a name="tutorial-data-quality-step5"></a>

 Depois de executar o trabalho, visualize os resultados de qualidade dos dados clicando na guia **Qualidade dos dados**. 

1.  Para cada trabalho executado, veja os resultados de qualidade dos dados. Cada nó exibe um status de qualidade de dados e detalhes de status. Clique em um nó para ver todas as regras e o status de cada regra. 

1.  Escolha **Baixar resultados** para baixar um arquivo CSV que contém informações sobre a execução do trabalho e os resultados da qualidade dos dados. 

1.  Se você tiver mais de uma execução de trabalho com resultados de qualidade de dados, poderá filtrar os resultados por intervalo de data e hora. Clique em *Filtrar por um intervalo de data e hora* para expandir a janela do filtro. 

1.  É possível escolher entre intervalo relativo e intervalo absoluto. Para intervalos absolutos, use o calendário para selecionar uma data e insira valores para hora de início e hora de término. Após terminar, escolha **Aplicar**. 

## Qualidade de dados automática
<a name="automatic-data-quality"></a>

 Quando você cria um trabalho de ETL do AWS Glue com o Amazon S3 como destino, o ETL do AWS Glue habilita automaticamente uma regra de qualidade de dados que verifica se os dados que estão sendo carregados têm pelo menos uma coluna. Essa regra foi desenvolvida para garantir que os dados que estão sendo carregados não estejam vazios ou corrompidos. No entanto, se essa regra falhar, o trabalho não falhará; em vez disso, você notará uma redução no seu índice de qualidade de dados. Além disso, a detecção de anomalias é ativada por padrão e monitora o número de colunas nos dados. Se houver alguma variação ou anormalidade na contagem de colunas, o ETL do AWS Glue informará você sobre essas anomalias. Esse recurso ajuda você a identificar possíveis problemas com os dados e a tomar as medidas apropriadas. Para visualizar a regra de qualidade de dados e sua configuração, é possível clicar no destino do Amazon S3 em seu trabalho de ETL do AWS Glue. A configuração da regra será exibida, conforme mostrado na captura de tela fornecida. 

![\[A captura de tela mostra as opções automáticas de qualidade de dados disponíveis para seleção.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/automatic-data-quality.png)


 Você pode adicionar outras regras de qualidade de dados selecionando **Editar configuração de qualidade de dados**. 

## Métricas agregadas
<a name="data-quality-aggregated-metrics"></a>

Você pode exigir métricas agregadas, como o número de registros aprovados, reprovados ou ignorados no nível da regra ou no nível do conjunto de regras para criar painéis. Para obter as métricas agregadas e as métricas de regras para cada regra, primeiro habilite as métricas agregadas adicionando a opção `publishAggregatedMetrics` à sua função `EvaluateDataQuality`.

As opções possíveis para `additional_options` `publishAggregatedMetrics` são `ENABLED` e `DISABLED`. Exemplo:

```
EvaluateDataQualityMultiframe = EvaluateDataQuality().process_rows(
    frame=medicare_dyf,
    ruleset=EvaluateDataQuality_ruleset,
    publishing_options={
        "dataQualityEvaluationContext": "EvaluateDataQualityMultiframe",
        "enableDataQualityCloudWatchMetrics": False,
        "enableDataQualityResultsPublishing": False,
    },
    additional_options={"publishAggregatedMetrics.status": "ENABLED"},
)
```

Se não for especificado, o `publishAggregatedMetrics.status` é `DISABLED` por padrão, e as ruleMetrics e as métricas agregadas agora serão computadas. Esse atributo é atualmente suportado nas sessões interativas do AWS Glue e nas tarefas de ETL do Glue. Isso não é suportado nas APIs do Glue Catalog Data Quality.

### Recuperar resultados de métricas agregadas
<a name="data-quality-aggregated-metrics-results"></a>

Quando `additionalOptions` for `"publishAggregatedMetrics.status": "ENABLED"`, você poderá obter os resultados em dois lugares:

1. `AggregatedMetrics` e `RuleMetrics` são retornados por meio do `GetDataQualityResult()` ao fornecer o `resultId` onde `AggregatedMetrics` e `RuleMetrics` incluem:

   **Métricas agregadas:**
   + Total de linhas processadas
   + Total de linhas processadas
   + Total de linhas com falha
   + Total de regras processadas
   + Total de regras aprovadas
   + Total de regras com falha  
![\[A captura de tela mostra as métricas agregadas e a estrutura de métricas de regras para as avaliações do AWS Glue Data Quality.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-aggregated-metrics.png)

   Além disso, no nível da regra, as seguintes métricas são fornecidas:

   **Métricas de regra:**
   + Linhas aprovadas
   + Linhas com falha
   + Linha ignorada
   + Total de linhas processadas

1. `AggregatedMetrics` é retornado como um quadro de dados adicional e o quadro de dados `RuleOutcomes` é aumentado para incluir `RuleMetrics`.

### Exemplos de implementação
<a name="data-quality-aggregated-metrics-example"></a>

O exemplo a seguir mostra como implementar métricas agregadas no Scala:

```
// Script generated for node Evaluate Data Quality
val EvaluateDataQuality_node1741974822533_ruleset = """
  # Example rules: Completeness "colA" between 0.4 and 0.8, ColumnCount > 10
  Rules = [
      IsUnique "customer_identifier",
      RowCount > 10,
      Completeness "customer_identifier" > 0.5
  ]
"""

val EvaluateDataQuality_node1741974822533 = EvaluateDataQuality.processRows(frame=ChangeSchema_node1742850392012, ruleset=EvaluateDataQuality_node1741974822533_ruleset, publishingOptions=JsonOptions("""{"dataQualityEvaluationContext": "EvaluateDataQuality_node1741974822533", "enableDataQualityCloudWatchMetrics": "true", "enableDataQualityResultsPublishing": "true"}"""), additionalOptions=JsonOptions("""{"compositeRuleEvaluation.method":"ROW","observations.scope":"ALL","performanceTuning.caching":"CACHE_NOTHING", "publishAggregatedMetrics.status": "ENABLED"}"""))

println("--------------------------------ROW LEVEL OUTCOMES--------------------------------")
val rowLevelOutcomes_node = EvaluateDataQuality_node1741974822533("rowLevelOutcomes")

rowLevelOutcomes_node.show(10)

 println("--------------------------------RULE LEVEL OUTCOMES--------------------------------")

val ruleOutcomes_node = EvaluateDataQuality_node1741974822533("ruleOutcomes")

ruleOutcomes_node.show()

 println("--------------------------------AGGREGATED METRICS--------------------------------")

val aggregatedMetrics_node = EvaluateDataQuality_node1741974822533("aggregatedMetrics")

aggregatedMetrics_node.show()
```

### Exemplos de resultados
<a name="data-quality-aggregated-metrics-sample-results"></a>

Os resultados são retornados da seguinte forma:

```
{
    "Rule": "IsUnique \"customer_identifier\"",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Uniqueness": 1
    },
    "EvaluatedRule": "IsUnique \"customer_identifier\"",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
{
    "Rule": "RowCount > 10",
    "Outcome": "Failed",
    "FailureReason": "Value: 10 does not meet the constraint requirement!",
    "EvaluatedMetrics": {
        "Dataset.*.RowCount": 10
    },
    "EvaluatedRule": "RowCount > 10",
    "PassedCount": 0,
    "FailedCount": 0,
    "SkippedCount": 10,
    "TotalCount": 10
}
{
    "Rule": "Completeness \"customer_identifier\" > 0.5",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Completeness": 1
    },
    "EvaluatedRule": "Completeness \"customer_identifier\" > 0.5",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
```

As métricas agregadas são as seguintes:

```
{ "TotalRowsProcessed": 10, "PassedRows": 10, "FailedRows": 0, "TotalRulesProcessed": 3, "RulesPassed": 2, "RulesFailed": 1 }
```

# Compilador de regras de qualidade de dados
<a name="data-quality-rule-builder"></a>

Com o criador de regras da Data Quality Definition Language (DQDL), você pode criar regras de qualidade de dados para avaliar seus dados. Comece selecionando um tipo de regra e depois especifique os parâmetros no editor de regras. O editor de regras também mostra erros e avisos à medida que você criar regras. 

 O [guia do DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html) fornece documentação abrangente sobre como estruturar regras usando a sintaxe, os tipos e os exemplos de regras integradas do DQDL. 

## Nó Evaluate Data Quality
<a name="gs-data-quality-transform-expand-view"></a>

 Ao trabalhar com o nó de transformação **Evaluate Data Quality** e o compilador de regras DQDL, você pode expandir o espaço de trabalho. 
+  Para expandir a guia **Transformar** para preencher a tela inteira, escolha o ícone de expansão no canto superior direito do painel de detalhes do nó. 
+  Para expandir o editor de regras DQDL, escolha o ícone **<<** para expandir o editor de regras e fechar as guias **Tipos de regras** e **Esquema**.   
![\[A captura de tela mostra um diagrama de trabalho com o nó Avaliar qualidade de dados.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data_quality_example.png)

## Componentes
<a name="gs-data-quality-rule-builder-components"></a>

 Existem 26 tipos de regras que são incorporados ao AWS Glue Studio. Cada tipo de regra tem uma descrição e exemplos de como elas podem ser usadas. 

### Tipos de regras de qualidade de dados
<a name="gs-data-quality-rule-types"></a>

 O AWS Glue Studio fornece tipos de regras integrados para facilitar a criação de uma regra. Para obter mais informações sobre tipos de regras, consulte [Referência de tipos de regras DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-rule-types). 

### Schema
<a name="gs-data-quality-schema"></a>

 A guia **Schema** (Esquema) exibe os nomes das colunas e o tipo de dados do nó principal. Esquemas de vários nós são exibidos. Você pode visualizar o esquema de entrada, pesquisar pelo nome da coluna e inserir a coluna no editor de regras. 

![\[A captura de tela mostra o editor de regras com uma regra completa usando o tipo de regra Completeness.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data_quality_schema.png)


### Editor de regras
<a name="gs-dataquality-rule-editor"></a>

 O editor de regras é um editor de texto em que você pode escrever e editar regras. Se você selecionar um tipo de regra no compilador de regras DQDL, o tipo de regra será adicionado ao editor de regras. Em seguida, você pode especificar parâmetros, adicionar regras e editar regras conforme necessário, modificando o texto. O AWS Glue Studio valida as regras no editor de regras e exibe erros e avisos, se houver. 

 **Erros e advertências** 

 Se uma regra não seguir a sintaxe da regra DQDL, o editor de regras mostra vários indicadores visuais de que há um erro: 
+  O editor de regras exibe um ícone de erro e a linha com o erro em vermelho. 
+  O editor de regras exibe o número de erros ao lado do ícone vermelho de erro. 
+  Quando você escolhe a linha com o erro, uma descrição e o local (linha e coluna) do erro são exibidos na parte inferior do editor de regras. 

![\[A captura de tela mostra o editor de regras DQDL com indicadores de erro na linha 1 e na parte inferior do editor de regras com o número de erros. Abaixo está a descrição do erro.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data_quality_rule_editor_error.png)


## 
<a name="gs-data-quality-settings"></a>

 **Ações de qualidade de dados** 

 Por padrão, essa ação não é selecionada e o trabalho concluirá sua execução mesmo se as regras de qualidade de dados falharem. 

 Escolha entre as ações a seguir. Você pode usar ações para publicar resultados no CloudWatch ou interromper trabalhos com base em critérios específicos. As ações só estarão disponíveis depois que você criar uma regra. 
+  **Publicar resultados no CloudWatch**: ao executar um trabalho, adicione os resultados ao CloudWatch. 
+  **Reprovar o trabalho quando a qualidade dos dados for reprovada**: se as regras de qualidade de dados forem reprovadas, o trabalho também será reprovado como resultado. 

 **Saída da transformação Data quality** 
+  **Dados originais**: escolha a saída dos dados de entrada originais. Essa opção é ideal se você quiser interromper o trabalho quando problemas de qualidade forem detectados. 
+  **Métricas de qualidade de dados**: opte pela saída das regras configuradas e o status de aprovação ou reprovação correspondente. Essa opção é útil se você quiser fazer uma ação personalizada. 

 **Configurações de saída de qualidade de dados** 

 Defina a localização do resultado de qualidade de dados especificando o local do Amazon S3 como o destino de saída de qualidade de dados. 

# Configuração da detecção de anomalias em tarefas de ETL do AWS Glue
<a name="data-quality-configuring-anomaly-detection-etl-jobs"></a>

 Para começar com a detecção de anomalias no AWS Glue Studio, abra uma tarefa do AWS Glue Studio e clique em **Avaliar transformação do Data Quality**. 

 Ao habilitar esse recurso, o AWS Glue Data Quality analisará seus dados ao longo do tempo para detectar anomalias. Isso fornecerá estatísticas de dados e observações valiosas sobre seus dados, permitindo que você adote medidas sobre quaisquer anomalias identificadas. 

 Consulte a documentação de [detecção de anomalias](data-quality-anomaly-detection.md) para entender o funcionamento interno desse recurso. 

## Como habilitar a detecção de anomalias
<a name="data-quality-enabling-anomaly-detection"></a>

**Para habilitar a detecção de anomalias no AWS Glue Studio:**

1.  Escolha o nó do **Data Quality** em seu trabalho e, em seguida, escolha a guia **Detecção de anomalias**. Alterne o seletor para ativar a opção **Habilitar detecção de anomalias**.   
![\[A captura de tela mostra a opção “Habilitar detecção de anomalias” ativada. É possível ativar ou desativar isso.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-enable-anomaly-detection.png)

1.  Defina os dados para monitorar anomalias ao escolher **Adicionar analisador**. Há dois campos que você pode preencher: Estatísticas e Dados. 
   +  As **Estatísticas** são informações sobre a forma e outras propriedades dos dados. É possível escolher uma ou mais estatísticas por vez ou escolher **Todas as estatísticas**. As estatísticas incluem: completude, exclusividade, média, soma, desvio padrão, entropia, DistinctValuesCount e UniqueValueRatio. Consulte a documentação [Analisadores](dqdl.md#dqdl-analyzers) para obter mais detalhes. 
   +  Os **Dados** são as colunas no seu conjunto de dados. Você pode escolher todas as colunas ou colunas individuais.   
![\[A captura de tela mostra os campos “Estatísticas” e “Dados”. Você pode escolher quais estatísticas deseja aplicar ao seu conjunto de dados e em quais colunas.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-add-analyzer.png)

1.  Escolha **Adicionar escopo de detecção de anomalias** para salvar as alterações. Depois de adicionar analisadores, você poderá visualizá-los na seção **Escopo de detecção de anomalias**. 

    Você também pode usar o menu **Ações** para editar seus analisadores ou escolher a guia **Editor de conjunto de regras** e editar o analisador diretamente no bloco de notas do editor de conjunto de regras. Você verá os analisadores que salvou abaixo de todas as regras que criou. 

   ```
   Rules = [
   
   ]
   
   Analyzers = [
       Completeness “id”
   ]
   ```

 Após a configuração do conjunto de regras e dos analisadores atualizados, o AWS Glue Data Quality vai monitorar continuamente os fluxos de dados recebidos. Dependendo de suas configurações, ele poderá sinalizar possíveis anomalias por meio de alertas ou interrupções de tarefa. Esse monitoramento proativo ajuda a garantir a qualidade e a integridade dos dados em todos os seus pipelines de dados. 

 Na próxima seção, você aprenderá a monitorar com eficácia as anomalias identificadas pelo sistema. Você também aprenderá a visualizar e analisar as estatísticas de dados coletadas pelo AWS Glue Data Quality. Além disso, você entenderá como fornecer feedback ao modelo de machine learning que alimenta o recurso de detecção de anomalias. Esse ciclo de feedback é crucial para melhorar a precisão do modelo e garantir que ele possa detectar com eficácia anomalias que se alinhem aos requisitos comerciais e aos padrões de dados específicos. 

# Visualização de pontuações de qualidade de dados e anomalias
<a name="data-quality-viewing-scores-and-anomalies"></a>

 Nesta seção, exploraremos o painel de qualidade de dados e as diferentes funcionalidades que ele disponibiliza. 

## Visualizar e compreender métricas e tendências de alto nível sobre qualidade de dados
<a name="data-quality-visualize-metrics-and-trends"></a>

 Quando sua tarefa for bem-sucedida, escolha a guia **Qualidade de dados** para ver as pontuações e anomalias da qualidade de dados. 

![\[A captura de tela mostra a guia Qualidade de dados selecionada e as pontuações e métricas.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-visualize-data-quality-metrics.png)


 Os componentes a seguir na guia Qualidade de dados disponibilizam informações úteis. 

1.  Escolha a guia **Qualidade de dados** para visualizar as métricas de qualidade dos dados. 

1.  Selecione um ID específico de execução de tarefa para ver a pontuação de qualidade de dados. 

1.  Esse painel mostra três informações importantes. Você pode escolher cada um deles para acessar as tabelas específicas a fim de visualizar anomalias, estatísticas de dados ou regras. 
   +  Pontuação de qualidade de dados quando as regras são configuradas. 
   +  Número de estatísticas coletadas por regras e analisadores. 
   +  O número total de anomalias detectadas. 

1.  Esse gráfico de tendências mostra como a qualidade dos dados está evoluindo ao longo do tempo. Você pode passar o mouse sobre a tendência e acessar um horário específico no qual as pontuações de qualidade dos dados se deterioraram. 

1.  As tendências de anomalias ao longo do tempo mostrarão o número de anomalias detectadas ao longo do tempo. 

1.  Guias: 
   +  A guia Regras é a guia padrão que mostra a lista de todas as regras e status. No caso de regras dinâmicas, as regras avaliadas são úteis para visualizar o valor efetivo com base no qual a regra foi avaliada. 
   +  A guia Estatísticas lista todas as estatísticas, permitindo que você visualize as métricas e as tendências ao longo do tempo. 
   +  A guia Anomalias mostra a lista das anomalias que foram detectadas. 

## Visualização de anomalias e treino do algoritmo de detecção de anomalias
<a name="data-quality-visualize-anomalies"></a>

![\[A captura de tela mostra a guia Anomalias com métricas.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-visualize-anomaly-detection.png)


 Explicações para a imagem acima: 

1.  Quando houver a detecção de anomalias, clique na anomalia ou selecione a guia Anomalias. 

1.  O AWS Glue Data Quality apresenta uma explicação detalhada da anomalia, o valor efetivo e a faixa prevista. 

1.  O AWS Glue Data Quality mostra uma linha de tendência. Ela tem o valor efetivo, uma tendência derivada com base nos valores efetivos (linha vermelha), o limite superior e o limite inferior 

1.  OAWS Glue Data Quality recomenda regras de qualidade de dados que podem ser usadas para capturar os padrões para o futuro. Você pode copiar todas as regras recomendadas e aplicá-las ao seu nó de qualidade de dados para capturar esses padrões de modo eficaz. 

1.  É possível fornecer entradas para o modelo de machine learning (ML) para excluir valores anômalos, garantindo que execuções futuras detectem anomalias com precisão. Se você não excluir as anomalias explicitamente, o AWS Glue Data Quality as considerará automaticamente como parte do modelo para previsões futuras. É importante observar que somente a execução mais recente refletirá as entradas do modelo que você fornece. Por exemplo, se você retornar e excluir pontos anômalos de algumas execuções anteriores, o modelo não refletirá essas alterações, a menos que você visualize e atualize as entradas do modelo na última execução. O modelo continuará usando as entradas fornecidas anteriormente até que você faça os ajustes necessários na execução mais recente. Ao gerenciar ativamente a exclusão de valores anômalos, você pode refinar a compreensão do modelo de ML sobre o que constitui uma anomalia em seus padrões e requisitos de dados específicos, levando a uma detecção mais precisa de anomalias ao longo do tempo. 

## Visualização de estatísticas de dados ao longo do tempo e oferta de informações de treinamento
<a name="data-quality-visualize-data-statistics-over-time"></a>

 Às vezes, talvez você queira visualizar estatísticas de dados ou perfis de dados e ver como eles estão progredindo ao longo do tempo. Para fazer isso, escolha **Estatísticas** ou abra a guia **Estatísticas**. Em seguida, você poderá ver as estatísticas de dados mais recentes coletadas pelo AWS Glue Data Quality. 

![\[A captura de tela mostra a guia Estatísticas com estatísticas do conjunto de dados e da coluna.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-visualize-data-statistics-over-time.png)


 Clicar em **Exibir tendências** mostra como cada uma das estatísticas está progredindo ao longo do tempo. 

![\[A captura de tela mostra a guia Estatísticas com estatísticas do conjunto de dados e da coluna.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/data-quality-view-trends-over-time.png)


1.  Você pode selecionar a estatística para uma coluna especificada. 

1.  Você pode ver como as tendências estão progredindo. 

1.  Você pode selecionar valores anômalos e optar por excluí-los ou incluí-los. Ao fornecer esse feedback, o algoritmo excluirá ou incluirá os pontos de dados anômalos identificados e retreinará o modelo. Esse processo de reciclagem garante a detecção precisa de anomalias no futuro, conforme o modelo aprende com o feedback que você forneceu sobre quais valores devem ser considerados anômalos ou não. 

    Por meio desse ciclo de feedback, você tem a capacidade de refinar a compreensão do algoritmo sobre o que constitui uma anomalia para seus padrões de dados e requisitos comerciais específicos. Ao excluir valores que não devem ser sinalizados como anomalias ou incluir valores que não foram devidamente capturados, o modelo retreinado se tornará melhor na diferenciação entre pontos de dados esperados e verdadeiramente anômalos.