Qualità dei dati di AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Qualità dei dati di AWS Glue

Qualità dei dati di AWS Glue consente di misurare e monitorare la qualità dei dati in modo da poter prendere decisioni aziendali efficaci. Basato sul framework open source DeeQu, Qualità dei dati di AWS Glue offre un'esperienza gestita e serverless. AWS Glue Qualità dei dati funziona con Data Quality Definition Language (DQDL), che è un linguaggio specifico del dominio utilizzato per definire le regole di qualità dei dati. Per ulteriori informazioni su DQDL e sui tipi di regole supportati, consulta la pagina Riferimento a Data Quality Definition Language (DQDL).

Per informazioni aggiuntive sul prodotto e sui prezzi, consulta la pagina del servizio Qualità dei dati di AWS Glue.

Vantaggi e funzionalità principali

I vantaggi e le funzionalità principali di Qualità dei dati di AWS Glue includono:

  • Serverless: non è necessaria alcuna installazione, applicazione di patch o manutenzione.

  • Inizia subito: Qualità dei dati di AWS Glue analizza rapidamente i tuoi dati e crea regole di qualità dei dati per tuo conto. È possibile iniziare con due clic: "Crea regole sulla qualità dei dati → Regole suggerite".

  • Rilevamento dei problemi di qualità dei dati: utilizza il machine learning (ML) per individuare anomalie e problemi di qualità dei dati difficili da rilevare.

  • Improvvisa le regole: con più di 25 regole DQ pronte all'uso da cui partire, puoi creare regole adatte alle tue esigenze specifiche.

  • Valuta la qualità e prendi decisioni aziendali con fiducia: una volta valutate le regole, ottieni un punteggio di qualità dei dati che fornisce una panoramica dello stato dei tuoi dati. Utilizza il punteggio di qualità dei dati per prendere decisioni aziendali con fiducia.

  • Concentrati sui dati errati: Qualità dei dati di AWS Glue ti aiuta a identificare i record esatti che hanno causato la diminuzione dei punteggi di qualità. Identificali, mettili in quarantena e correggili facilmente.

  • Pagamento in base al consumo: l'utilizzo di Qualità dei dati di AWS Glue non richiede licenze annuali.

  • Nessun vincolo: Qualità dei dati di AWS Glue si basa su DeeQu open source, che ti consente di mantenere le regole che crei in un linguaggio aperto.

  • Controlli della qualità dei dati: è possibile applicare i controlli di qualità dei dati su Data Catalog e sulle pipeline di ETL AWS Glue e gestire la qualità dei dati inattivi e in transito.

  • Rilevamento della qualità dei dati basato su ML: utilizza il machine learning (ML) per individuare anomalie e problemi di qualità dei dati difficili da rilevare.

  • Linguaggio aperto per esprimere regole: garantisce che le regole sulla qualità dei dati siano redatte in modo coerente e semplice. Gli utenti aziendali possono esprimere facilmente le regole sulla qualità dei dati in un linguaggio semplice e comprensibile. Per gli ingegneri, questo linguaggio offre la flessibilità necessaria per generare codice, implementare un controllo coerente delle versioni e automatizzare le implementazioni.

Come funziona

Esistono due punti di accesso per Qualità dei dati di AWS Glue: AWS Glue Data Catalog e i processi ETL AWS Glue. Questa sezione offre una panoramica dei casi d'uso e delle funzionalità AWS Glue supportate da ciascun punto di ingresso.

Qualità dei dati per AWS Glue Data Catalog

Qualità dei dati di AWS Glue valuta gli oggetti archiviati in AWS Glue Data Catalog e offre agli utenti non programmatori un modo semplice per impostare regole di qualità dei dati. Queste figure includono amministratori di dati e analisti aziendali.

È possibile scegliere questa opzione per i seguenti casi d'uso:

  • Desideri eseguire attività relative alla qualità dei dati su set di dati che hai già catalogato in AWS Glue Data Catalog.

  • Ti occupi di governance dei dati e devi identificare o valutare i problemi di qualità dei dati nel tuo data lake su base continuativa.

È possibile gestire la qualità dei dati per Catalogo dati utilizzando le seguenti interfacce:

  • La console di gestione AWS Glue

  • API AWS Glue

Per le nozioni di base su Qualità dei dati di AWS Glue Glue per AWS Glue Data Catalog, consulta la pagina Nozioni di base su AWS Glue Data Quality per Data Catalog.

Qualità dei dati per i processi ETL AWS Glue

Qualità dei dati di AWS Glue per i processi ETL AWS Glue consente di eseguire attività proattive in relazione alla qualità dei dati. Le attività proattive ti aiutano a identificare e filtrare i dati errati prima di caricare un set di dati nel tuo data lake.

È possibile scegliere la qualità dei dati per i processi ETL per i seguenti casi d'uso:

  • Desideri integrare attività relative alla qualità dei dati nei tuoi processi ETL

  • Desideri scrivere codice che definisca le attività relative alla qualità dei dati negli script ETL

  • Vuoi gestire la qualità dei dati che fluiscono nelle tue pipeline di dati visive

È possibile gestire la qualità dei dati per i processi ETL utilizzando le seguenti interfacce:

  • AWS Glue Studio, notebook AWS Glue Studio e sessioni interattive AWS Glue

  • Librerie AWS Glue per lo scripting ETL

  • API AWS Glue

Per iniziare a utilizzare la qualità dei dati per i processi ETL, consulta la pagina Tutorial: Getting started with Data Quality nella Guida per l'utente di AWS Glue Studio.

Confronto della qualità dei dati per Catalogo dati con la qualità dei dati per i processi ETL

Questa tabella fornisce una panoramica delle funzionalità supportate da ogni punto di ingresso di Qualità dei dati di AWS Glue.

Funzionalità Qualità dei dati per Catalogo dati Qualità dei dati per i processi ETL
Origini dati Amazon S3, Amazon Redshift, origini JDBC compatibili con il Catalogo dati e formati di data lake transazionali come Apache Iceberg, Apache Hudi e Delta Lake. AWS Lake Formation sono supportati anche i formati OTF gestiti con alcune limitazioni. Amazon Athenal e viste catalogate nel Catalogo dati AWS Glue non sono supportate. Consulta Tipi di origini supportate. Tutte le origini dati supportate da AWS Glue, inclusi connettori personalizzati e connettori di terze parti.
Suggerimenti di regole di Qualità dei dati Supportato Non supportato
Creazione ed esecuzione di regole DQDL Supportato Supportato
Dimensionamento automatico Non supportato Supportato
Supporto per AWS Glue Flex Non supportato Supportato
Pianificazione Supportato durante la valutazione delle regole di Qualità dei dati e tramite Step Functions. Supportato durante l'utilizzo di Step Functions e flussi di lavoro.
Identificazione dei record che non hanno superato i controlli di qualità dei dati Non supportato Supportato
Integrazione con Amazon EventBridge Supportato Supportato
Integrazione con AWS Cloudwatch Supportato Supportato
Scrittura dei risultati di qualità dei dati in Amazon S3 Supportato Supportato
Qualità incrementale dei dati Supportato tramite predicati pushdown Supportato tramite segnalibri AWS Glue
Supporto di AWS CloudFormation Supportato Supportato
Rilevamento delle anomalie basato su ML Non supportato Supportato
Regole dinamiche Non supportato Supportato

Considerazioni

Considera i seguenti aspetti prima di utilizzare Qualità dei dati di AWS Glue:

Terminologia

L'elenco seguente definisce i termini correlati a AWS Glue Data Quality.

Data Quality Definition Language (DQDL)

Un linguaggio specifico del dominio che puoi usare per scrivere regole di AWS Glue Data Quality.

Per ulteriori informazioni su DQDL, consulta la guida di Riferimento a Data Quality Definition Language (DQDL).

qualità dei dati

Descrive in che modo un set di dati soddisfa il suo scopo specifico. AWS Glue Data Quality valuta le regole rispetto a un set di dati per misurare la qualità dei dati. Ogni regola verifica caratteristiche particolari come la freschezza o l'integrità dei dati. Per quantificare la qualità dei dati, è possibile utilizzare un punteggio di qualità dei dati.

punteggio di qualità dei dati

La percentuale di regole di qualità dei dati che vengono approvate (risultano vere) quando si valuta un set di regole con AWS Glue Data Quality.

regola

Un'espressione DQDL che controlla i dati per una caratteristica specifica e restituisce un valore booleano. Per ulteriori informazioni, consulta Struttura delle regole.

analyzer

Un'espressione DQDL che raccoglie statistiche sui dati. Un analizzatore raccoglie statistiche sui dati che possono essere utilizzate dagli algoritmi ML per individuare anomalie e problemi di qualità dei dati difficili da rilevare nel tempo.

set di regole

Una risorsa AWS Glue che comprende una serie di regole di qualità dei dati. Un set di regole deve essere associato a una tabella in AWS Glue Data Catalog. Quando salvi un set di regole, AWS Glue assegna un nome della risorsa Amazon (ARN) al set di regole.

punteggio di qualità dei dati

La percentuale di regole di qualità dei dati che vengono approvate (risultano vere) quando si valuta un set di regole con AWS Glue Data Quality.

osservazione

Informazioni non confermate generate da AWS Glue analizzando le statistiche sui dati raccolte da regole e analizzatori nel tempo.

Limiti

AWS Glue Limiti del servizio sulla Qualità dei dati:

  • Puoi avere 2.000 regole in un set di regole. Se i tuoi set di regole sono maggiori, ti consigliamo di suddividerli in più set di regole.

  • La dimensione del set di regole è di 65 KB. Se i tuoi set di regole sono maggiori, ti consigliamo di suddividerli in più set di regole.

  • AWS Glue La Qualità dei dati raccoglie statistiche quando crei una regola o un analizzatore. Non vi è alcun costo associato alla memorizzazione di queste statistiche. Tuttavia, esiste un limite di 100.000 statistiche per account e tali statistiche verranno conservate per un massimo di due anni.

Note di rilascio per Qualità dei dati di AWS Glue

Questo argomento descrive le funzionalità introdotte in Qualità dei dati di AWS Glue.

Disponibilità generale: nuove funzionalità

La disponibilità generale di Qualità dei dati di AWS Glue offre le seguenti nuove funzionalità:

  • AWS Glue Studio ora supporta la capacità di identificare quali record non hanno superato i controlli di qualità

  • Nuovi tipi di regole sulla qualità dei dati, come la convalida dell'integrità referenziale dei dati tra due set di dati, il confronto dei dati tra due set di dati e il controllo dei tipi di dati

  • Esperienza utente migliorata in AWS Glue Data Catalog

  • Supporto per Apache Iceberg, Apache Hudi e Delta Lake

  • Supporto per Amazon Redshift

  • Invio semplificato di notifiche con Amazon EventBridge

  • Supporto di AWS CloudFormation per la creazione di set di regole

  • Miglioramenti delle prestazioni: opzione di memorizzazione nella cache in ETL e AWS Glue Studio per prestazioni più rapide nella valutazione della qualità dei dati

27 novembre 2023 (anteprima)

12 marzo 2024

26 giugno 2024

  • Miglioramenti per DQDL

    • DQDL ora supporta la clausola where in modo da poter filtrare i dati prima di applicare le regole DQ

7 agosto 2024

  • Il Rilevamento delle anomalie e le Regole dinamiche sono ora disponibili a livello generale

22 novembre 2024

6 dicembre 2024

  • La Qualità dei dati AWS Glue ora supporta le tabelle LakeHouse Amazon SageMaker AI e le tabelle Iceberg, Delta e HUDI gestite da AWS Lake Formation in AWS Glue ETL 5.0.

7 luglio 2025

  • La Qualità dei dati AWS Glue;ora supporta le Tabelle Amazon S3, RMS, Lakehouse e le tabelle Iceberg gestite da AWS Lake Formation nel Catalogo dati AWS Glue.