Rilevamento delle anomalie in Qualità dei dati di AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rilevamento delle anomalie in Qualità dei dati di AWS Glue

Gli ingegneri gestiscono contemporaneamente centinaia di pipeline di dati. Ogni pipeline può estrarre dati da varie origini e caricarli nel data lake o in altri repository di dati. Per garantire che vengano forniti dati di alta qualità per il processo decisionale, vengono stabilite regole relative alla qualità dei dati. Queste regole valutano i dati sulla base di criteri fissi che rispecchiano lo stato attuale dell'azienda. Tuttavia, quando l'ambiente aziendale cambia, cambiano anche le proprietà dei dati, rendendo obsoleti questi criteri fissi e causando una scarsa qualità dei dati.

Ad esempio, un ingegnere dei dati presso un'azienda di vendita al dettaglio ha stabilito una regola che convalida che le vendite giornaliere devono superare una one-million-dollar soglia. Dopo qualche mese, le vendite giornaliere hanno superato i due milioni di dollari, rendendo obsoleta la soglia. L'ingegnere dei dati non ha potuto aggiornare le regole in modo che riflettessero le soglie più recenti a causa della mancanza di notifiche e dello sforzo richiesto per analizzare e aggiornare manualmente la regola. Più avanti nel mese, gli utenti aziendali hanno notato un calo del 25% nelle vendite. Dopo ore di indagini, i tecnici dei dati hanno scoperto che una pipeline ETL responsabile dell'estrazione dei dati da alcuni negozi aveva smesso di funzionare senza generare errori. La regola con soglie obsolete ha continuato a funzionare senza rilevare il problema.

In alternativa, avvisi proattivi in grado di rilevare queste anomalie avrebbero potuto permettere agli utenti di individuare il problema. Inoltre, il monitoraggio della stagionalità nell'azienda può evidenziare problemi significativi relativi alla qualità dei dati. Ad esempio, le vendite al dettaglio possono essere più elevate nei fine settimana e nei periodi festivi, mentre sono relativamente basse nei giorni feriali. Una divergenza da questo modello può indicare problemi nella qualità dei dati o cambiamenti nella situazione aziendale. Le regole di qualità dei dati non sono in grado di rilevare i modelli stagionali, in quanto ciò richiede algoritmi avanzati in grado di apprendere dai modelli passati che catturano la stagionalità per rilevare le deviazioni.

Infine, gli utenti trovano difficile creare e gestire le regole a causa della natura tecnica del processo di creazione delle regole e del tempo necessario per redigerle. Di conseguenza, prima di definire le regole preferiscono esplorare le informazioni ricavate dai dati. I clienti devono essere in grado di individuare facilmente le anomalie, in modo da poter rilevare in modo proattivo i problemi relativi alla qualità dei dati e prendere decisioni aziendali più consapevoli.

Come funziona

Nota

Il rilevamento delle anomalie è supportato solo in AWS Glue ETL. Non è supportato nella qualità dei dati basata sul Catalogo dati.

La schermata mostra il processo di rilevamento delle anomalie della qualità dei dati.

AWS Glue Data Quality combina la potenza della qualità dei dati basata su regole e le funzionalità di rilevamento delle anomalie per fornire dati di alta qualità. Per iniziare, prima di tutto è necessario configurare regole e analizzatori, quindi abilitare il rilevamento delle anomalie.

Regole

Regole: le regole esprimono le aspettative relative ai dati in un linguaggio aperto denominato Data Quality Definition Language (DQDL). Di seguito è riportato un esempio di regola. Questa regola avrà esito positivo quando non ci saranno valori vuoti o NULL nella colonna 'passenger_count':

Rules = [ IsComplete "passenger_count" ]

Analizzatori

Nelle situazioni in cui si conoscono le colonne critiche ma non si dispone di informazioni sufficienti sui dati per scrivere regole specifiche, è possibile monitorare tali colonne utilizzando gli analizzatori. Gli analizzatori rappresentano un modo per raccogliere statistiche sui dati senza definire regole esplicite. Di seguito è riportato un esempio di configurazione degli analizzatori:

Analyzers = [ AllStatistics "fare_amount", DistinctValuesCount "pulocationid", RowCount ]

In questo esempio sono configurati tre analizzatori:

  1. Il primo analizzatore, `AllStatistics «fare_amount"`, acquisirà tutte le statistiche disponibili per il campo `fare_amount`.

  2. Il secondo analizzatore, `«DistinctValuesCount pulocationid"`, acquisirà il conteggio dei valori distinti nella colonna `pulocationid`.

  3. Il terzo analizzatore, `RowCount`, acquisirà il numero totale di record nel set di dati.

Gli analizzatori rappresentano un modo semplice per raccogliere statistiche rilevanti sui dati senza specificare regole complesse. Monitorando queste statistiche, è possibile ottenere informazioni dettagliate sulla qualità dei dati e identificare potenziali problemi o anomalie che potrebbero richiedere ulteriori indagini o la creazione di regole specifiche.

Statistiche dei dati

Sia Analyzer che Rules in AWS Glue Data Quality raccolgono statistiche sui dati, note anche come profili di dati. Queste statistiche forniscono informazioni dettagliate sulle caratteristiche e sulla qualità dei dati. Le statistiche raccolte vengono archiviate nel tempo all'interno del servizio AWS Glue, che consente di tracciare e analizzare le modifiche nei profili di dati.

Puoi recuperare facilmente queste statistiche e scriverle su Amazon S3 per ulteriori analisi o per lo storage a lungo termine richiamando le informazioni appropriate. APIs Questa funzionalità permette di integrare la profilazione dei dati nei flussi di lavoro di elaborazione dei dati e di sfruttare le statistiche raccolte per diversi scopi, come il monitoraggio della qualità dei dati e il rilevamento delle anomalie.

Archiviando i profili di dati in Amazon S3, è possibile sfruttare la scalabilità, la durabilità e l'economicità del servizio di archiviazione di oggetti di Amazon. Inoltre, puoi sfruttare altri AWS servizi o strumenti di terze parti per analizzare e visualizzare i profili di dati, consentendoti di ottenere informazioni più approfondite sulla qualità dei dati e prendere decisioni informate sulla gestione e la governance dei dati.

Di seguito è riportato un esempio di statistiche sui dati memorizzate nel tempo.

La schermata mostra un grafico lineare delle statistiche sulla qualità dei dati nel tempo.
Nota

AWS Glue Data Quality raccoglierà le statistiche una sola volta, anche se hai sia Rule che Analyzer per le stesse colonne, rendendo efficiente il processo di generazione delle statistiche.

Rilevamento di anomalie

AWS Glue Data Quality richiede un minimo di tre punti dati per rilevare le anomalie. Sfrutta un algoritmo di machine learning per imparare dalle tendenze passate e quindi prevedere i valori futuri. Quando il valore effettivo non rientra nell'intervallo previsto, AWS Glue Data Quality crea un'osservazione delle anomalie. Offre una rappresentazione visiva del valore effettivo e delle tendenze. Nel seguente grafico vengono mostrati quattro valori.

La schermata mostra un grafico lineare degli eventi di rilevamento delle anomalie relative alla qualità dei dati nel tempo.
  1. La statistica attuale e la sua tendenza nel tempo.

  2. Una tendenza derivata imparando dalla tendenza attuale. È utile per comprendere la direzione della tendenza.

  3. Il possibile limite superiore per la statistica.

  4. Il possibile limite inferiore per la statistica.

  5. Regole per la qualità dei dati raccomandate in grado di rilevare questi problemi in futuro.

Ci sono alcune cose importanti da tenere presente riguardo alle anomalie:

  • Quando si generano anomalie, i punteggi relativi alla qualità dei dati non subiscono alcuna variazione.

  • Quando viene rilevata un'anomalia, questa viene considerata normale per le esecuzioni successive. A meno che questo valore anomalo non venga esplicitamente escluso, l'algoritmo di machine learning lo considererà come input.

Riaddestramento

Il riaddestramento del modello di rilevamento delle anomalie è fondamentale per rilevare le anomalie corrette. Quando vengono rilevate anomalie, AWS Glue Data Quality include l'anomalia nel modello come valore normale. Per garantire che il rilevamento delle anomalie funzioni correttamente, è importante fornire un feedback riconoscendo o rifiutando l'anomalia. AWS Glue Data Quality fornisce meccanismi sia in AWS Glue Studio che APIs per fornire feedback al modello. Per ulteriori informazioni, consulta la documentazione sulla configurazione del rilevamento delle anomalie nelle pipeline AWS Glue ETL.

Dettagli dell'algoritmo di rilevamento delle anomalie

  • L'algoritmo di rilevamento delle anomalie esamina le statistiche dei dati nel tempo. L'algoritmo considera tutti i punti dati disponibili e ignora tutte le statistiche esplicitamente escluse.

  • Queste statistiche sui dati vengono archiviate nel servizio AWS Glue e puoi fornire AWS KMS chiavi per crittografarle. Consulta la Guida alla sicurezza su come fornire AWS KMS le chiavi per crittografare le statistiche sulla qualità dei dati di AWS Glue.

  • La componente del tempo è fondamentale per l'algoritmo di rilevamento delle anomalie. Sulla base dei valori passati, AWS Glue Data Quality determina i limiti superiore e inferiore. Nel determinarli, tiene in considerazione la componente del tempo. I limiti saranno diversi per gli stessi valori su un intervallo di un minuto, su un intervallo di un'ora o su un intervallo di un giorno.

Acquisire la stagionalità

AWS L'algoritmo di rilevamento delle anomalie di Glue Data Quality può catturare modelli stagionali. Ad esempio, è in grado di comprendere che i modelli dei giorni feriali sono diversi da quelli dei fine settimana. Questo può essere visto nell'esempio seguente, in cui AWS Glue Data Quality rileva una tendenza stagionale nei valori dei dati. Non è necessario eseguire alcuna operazione specifica per abilitare questa funzionalità. Nel tempo, AWS Glue Data Quality apprende le tendenze stagionali e rileva le anomalie quando questi schemi si interrompono.

La schermata mostra una scheda relativa alla qualità dei dati con dati che presentano anomalie nell'acquisizione delle tendenze stagionali.

Costo

Il costo sarà calcolato in base al tempo necessario per rilevare le anomalie. Ogni statistica comporta un costo di 1 DPU per il tempo necessario a rilevare le anomalie. Per esempi dettagliati, consultare i prezzi di AWS Glue.

Considerazioni chiave

L'archiviazione delle statistiche è gratuita. Tuttavia, c'è un limite di 100.000 statistiche per account. Le statistiche saranno archiviate per un massimo di due anni.