Rilevamento delle anomalie in Qualità dei dati di AWS Glue - AWSGlue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rilevamento delle anomalie in Qualità dei dati di AWS Glue

Gli ingegneri gestiscono contemporaneamente centinaia di pipeline di dati. Ogni pipeline può estrarre dati da varie origini e caricarli nel data lake o in altri repository di dati. Per garantire che vengano forniti dati di alta qualità per il processo decisionale, vengono stabilite regole relative alla qualità dei dati. Queste regole valutano i dati sulla base di criteri fissi che rispecchiano lo stato attuale dell'azienda. Tuttavia, quando l'ambiente aziendale cambia, cambiano anche le proprietà dei dati, rendendo obsoleti questi criteri fissi e causando una scarsa qualità dei dati.

Ad esempio: un ingegnere dei dati presso un'azienda di vendita al dettaglio ha stabilito una regola secondo cui le vendite giornaliere devono superare la soglia di un milione di dollari. Dopo qualche mese, le vendite giornaliere hanno superato i due milioni di dollari, rendendo obsoleta la soglia. L'ingegnere dei dati non ha potuto aggiornare le regole in modo che riflettessero le soglie più recenti a causa della mancanza di notifiche e dello sforzo richiesto per analizzare e aggiornare manualmente la regola. Più avanti nel mese, gli utenti aziendali hanno notato un calo del 25% nelle vendite. Dopo ore di indagini, i tecnici dei dati hanno scoperto che una pipeline ETL responsabile dell'estrazione dei dati da alcuni negozi aveva smesso di funzionare senza generare errori. La regola con soglie obsolete ha continuato a funzionare senza rilevare il problema.

In alternativa, avvisi proattivi in grado di rilevare queste anomalie avrebbero potuto permettere agli utenti di individuare il problema. Inoltre, il monitoraggio della stagionalità nell'azienda può evidenziare problemi significativi relativi alla qualità dei dati. Ad esempio, le vendite al dettaglio possono essere più elevate nei fine settimana e nei periodi festivi, mentre sono relativamente basse nei giorni feriali. Una divergenza da questo modello può indicare problemi nella qualità dei dati o cambiamenti nella situazione aziendale. Le regole di qualità dei dati non sono in grado di rilevare i modelli stagionali, in quanto ciò richiede algoritmi avanzati in grado di apprendere dai modelli passati che catturano la stagionalità per rilevare le deviazioni.

Infine, gli utenti trovano difficile creare e gestire le regole a causa della natura tecnica del processo di creazione delle regole e del tempo necessario per redigerle. Di conseguenza, prima di definire le regole preferiscono esplorare le informazioni ricavate dai dati. I clienti devono essere in grado di individuare facilmente le anomalie, in modo da poter rilevare in modo proattivo i problemi relativi alla qualità dei dati e prendere decisioni aziendali più consapevoli.

Come funziona

Nota

Il rilevamento delle anomalie è supportato solo in AWS Glue ETL. Non è supportato nella qualità dei dati basata sul Catalogo dati.

La schermata mostra il processo di rilevamento delle anomalie della qualità dei dati.

Qualità dei dati di AWS Glue unisce la potenza della qualità dei dati basata su regole e le funzionalità di rilevamento delle anomalie per fornire dati di alta qualità. Per iniziare, prima di tutto è necessario configurare regole e analizzatori, quindi abilitare il rilevamento delle anomalie.

Regole

Regole: le regole esprimono le aspettative relative ai dati in un linguaggio aperto denominato Data Quality Definition Language (DQDL). Di seguito è riportato un esempio di regola. Questa regola avrà esito positivo quando non ci saranno valori vuoti o NULL nella colonna 'passenger_count':

Rules = [ IsComplete "passenger_count" ]

Analizzatori

Nelle situazioni in cui si conoscono le colonne critiche ma non si dispone di informazioni sufficienti sui dati per scrivere regole specifiche, è possibile monitorare tali colonne utilizzando gli analizzatori. Gli analizzatori rappresentano un modo per raccogliere statistiche sui dati senza definire regole esplicite. Di seguito è riportato un esempio di configurazione degli analizzatori:

Analyzers = [ AllStatistics "fare_amount", DistinctValuesCount "pulocationid", RowCount ]

In questo esempio sono configurati tre analizzatori:

  1. Il primo analizzatore, 'AllStatistics "fare_amount"', acquisirà tutte le statistiche disponibili per il campo 'fare_amount'.

  2. Il secondo analizzatore, 'DistinctValuesCount "pulocationid"', acquisirà il conteggio dei valori distinti nella colonna 'pulocationid'.

  3. Il terzo analizzatore, 'RowCount', acquisirà il numero totale di record nel set di dati.

Gli analizzatori rappresentano un modo semplice per raccogliere statistiche rilevanti sui dati senza specificare regole complesse. Monitorando queste statistiche, è possibile ottenere informazioni dettagliate sulla qualità dei dati e identificare potenziali problemi o anomalie che potrebbero richiedere ulteriori indagini o la creazione di regole specifiche.

Statistiche sui dati

Sia gli analizzatori che le regole in Qualità dei dati di AWS Glue raccolgono statistiche sui dati, note anche come profili di dati. Queste statistiche forniscono informazioni dettagliate sulle caratteristiche e sulla qualità dei dati. Le statistiche raccolte vengono archiviate nel tempo all'interno del servizio AWS Glue, consentendo di monitorare e analizzare le modifiche nei profili di dati.

È possibile recuperare facilmente queste statistiche e scriverle su Amazon S3 per ulteriori analisi o per l'archiviazione a lungo termine invocando le API appropriate. Questa funzionalità permette di integrare la profilazione dei dati nei flussi di lavoro di elaborazione dei dati e di sfruttare le statistiche raccolte per diversi scopi, come il monitoraggio della qualità dei dati e il rilevamento delle anomalie.

Archiviando i profili di dati in Amazon S3, è possibile sfruttare la scalabilità, la durabilità e l'economicità del servizio di archiviazione di oggetti di Amazon. Inoltre, è possibile sfruttare altri servizi AWS o strumenti di terze parti per analizzare e visualizzare i profili di dati, in modo da ottenere informazioni più approfondite sulla qualità dei dati e prendere decisioni informate sulla gestione e la governance dei dati.

Di seguito è riportato un esempio di statistiche sui dati memorizzate nel tempo.

La schermata mostra un grafico lineare delle statistiche sulla qualità dei dati nel tempo.
Nota

Qualità dei dati di AWS Glue raccoglierà le statistiche una sola volta, anche se si dispone sia di regole che di analizzatori per le stesse colonne, rendendo efficiente il processo di generazione delle statistiche.

Rilevamento di anomalie

Qualità dei dati di AWS Glue richiede un minimo di tre punti dati per rilevare le anomalie. Sfrutta un algoritmo di machine learning per imparare dalle tendenze passate e quindi prevedere i valori futuri. Quando il valore effettivo non rientra nell'intervallo previsto, Qualità dei dati di AWS Glue crea un'osservazione delle anomalie. Offre una rappresentazione visiva del valore effettivo e delle tendenze. Nel seguente grafico vengono mostrati quattro valori.

La schermata mostra un grafico lineare degli eventi di rilevamento delle anomalie relative alla qualità dei dati nel tempo.
  1. La statistica attuale e la sua tendenza nel tempo.

  2. Una tendenza derivata imparando dalla tendenza attuale. È utile per comprendere la direzione della tendenza.

  3. Il possibile limite superiore per la statistica.

  4. Il possibile limite inferiore per la statistica.

  5. Regole per la qualità dei dati raccomandate in grado di rilevare questi problemi in futuro.

Ci sono alcune cose importanti da tenere presente riguardo alle anomalie:

  • Quando si generano anomalie, i punteggi relativi alla qualità dei dati non subiscono alcuna variazione.

  • Quando viene rilevata un'anomalia, questa viene considerata normale per le esecuzioni successive. A meno che questo valore anomalo non venga esplicitamente escluso, l'algoritmo di machine learning lo considererà come input.

Riaddestramento

Il riaddestramento del modello di rilevamento delle anomalie è fondamentale per rilevare le anomalie corrette. Quando vengono rilevate delle anomalie, Qualità dei dati di AWS Glue include l'anomalia nel modello come valore normale. Per garantire che il rilevamento delle anomalie funzioni in modo accurato, è importante fornire un feedback riconoscendo o rifiutando l'anomalia. AWS Qualità dei dati di Glue fornisce dei meccanismi per fornire feedback al modello sia in AWS Glue Studio che nelle API. Per ulteriori informazioni, consulta la documentazione sulla configurazione del rilevamento delle anomalie nelle pipeline di AWS Glue ETL.

Dettagli dell'algoritmo di rilevamento delle anomalie

  • L'algoritmo di rilevamento delle anomalie esamina le statistiche dei dati nel tempo. L'algoritmo considera tutti i punti dati disponibili e ignora tutte le statistiche esplicitamente escluse.

  • Queste statistiche sui dati vengono archiviate nel servizio AWS Glue ed è possibile fornire chiavi AWS KMS per crittografarle. Fare riferimento alla Guida alla sicurezza per informazioni su come fornire chiavi AWS KMS per crittografare le statistiche di Qualità dei dati di AWS Glue.

  • La componente del tempo è fondamentale per l'algoritmo di rilevamento delle anomalie. Sulla base dei valori passati, Qualità dei dati di AWS Glue determina il limite superiore e quello inferiore. Nel determinarli, tiene in considerazione la componente del tempo. I limiti saranno diversi per gli stessi valori su un intervallo di un minuto, su un intervallo di un'ora o su un intervallo di un giorno.

Acquisire la stagionalità

L'algoritmo di rilevamento delle anomalie di AWS Glue Data Quality è in grado di rilevare i modelli stagionali. Ad esempio, è in grado di comprendere che i modelli dei giorni feriali sono diversi da quelli dei fine settimana. Ciò è evidente nell'esempio riportato di seguito, in cui Qualità dei dati di AWS Glue rileva una tendenza stagionale nei valori dei dati. Non è necessario eseguire alcuna operazione specifica per abilitare questa funzionalità. Nel corso del tempo, Qualità dei dati di AWS Glue apprende le tendenze stagionali e rileva le anomalie quando questi modelli si interrompono.

La schermata mostra una scheda relativa alla qualità dei dati con dati che presentano anomalie nell'acquisizione delle tendenze stagionali.

Costo

Il costo sarà calcolato in base al tempo necessario per rilevare le anomalie. Ogni statistica comporta un costo di 1 DPU per il tempo necessario a rilevare le anomalie. Per esempi dettagliati, consultare i prezzi di AWS Glue.

Considerazioni chiave

L'archiviazione delle statistiche è gratuita. Tuttavia, c'è un limite di 100.000 statistiche per account. Le statistiche saranno archiviate per un massimo di due anni.