Configurazione del rilevamento delle anomalie nei processi ETL di AWS Glue - AWS Glue

Configurazione del rilevamento delle anomalie nei processi ETL di AWS Glue

Per iniziare con il rilevamento delle anomalie in AWS Glue Studio, apri un processo AWS Glue Studio e fai clic su Valuta trasformazione Data Quality.

Abilitando questa funzionalità, Qualità dei dati di AWS Glue analizzerà i dati nel tempo per rilevare anomalie. Fornisce statistiche e osservazioni preziose sui dati, consentendo di intervenire sulle eventuali anomalie identificate.

Consulta la documentazione relativa al rilevamento delle anomalie per capire il funzionamento interno di questa funzionalità.

Abilitazione del rilevamento delle anomalie

Per abilitare il rilevamento delle anomalie in AWS Glue Studio:
  1. Scegli il nodo Qualità dei dati nel processo, quindi scegli la scheda Rilevamento delle anomalie. Attiva l'opzione Abilita rilevamento anomalie.

    La schermata mostra l'interruttore "Abilita il rilevamento anomalie" attivo. L'opzione può essere attivata o disattivata.
  2. Definisci i dati da monitorare per rilevare eventuali anomalie scegliendo Aggiungi analizzatore. È possibile compilare due campi: Statistiche e Dati.

    • Le statistiche corrispondono alle informazioni sulla forma e su altre proprietà dei dati. È possibile scegliere una o più statistiche per volta oppure scegliere Tutte le statistiche. Le statistiche includono: Completezza, Univocità, Media, Somma, StandardDeviation, Entropia, DistinctValuesCount, UniqueValueRatio ecc. Per ulteriori dettagli, consulta la documentazione relativa agli analizzatori.

    • I dati corrispondono alle colonne del set di dati. Puoi scegliere colonne singole oppure sceglierle tutte.

    La schermata mostra i campi per Statistiche e Dati. Puoi scegliere quali statistiche applicare al tuo set di dati e su quali colonne.
  3. Scegli Aggiungi ambito di rilevamento delle anomalie per salvare le modifiche. Dopo aver aggiunto gli analizzatori, puoi visualizzarli nella sezione Ambito di rilevamento delle anomalie.

    Puoi anche utilizzare il menu Operazioni per modificare gli analizzatori oppure scegliere la scheda Editor del set di regole e modificare l'analizzatore direttamente nel blocco note dell'editor del set di regole. Visualizzerai gli analizzatori che hai salvato sotto le regole che hai creato.

    Rules = [ ] Analyzers = [ Completeness “id” ]

Una volta configurati il set di regole e gli analizzatori aggiornati, Qualità dei dati di AWS Glue monitora costantemente i flussi di dati in entrata. Può segnalare potenziali anomalie tramite avvisi o interruzioni dei processi, a seconda delle impostazioni configurate. Questo monitoraggio proattivo contribuisce a garantire la qualità e l'integrità dei dati in tutte le pipeline di dati.

La prossima sezione mostra come monitorare in modo efficace le anomalie individuate dal sistema. Inoltre, spiega come visualizzare e analizzare le statistiche dei dati raccolti da Qualità dei dati di AWS Glue. Infine, mostra come fornire feedback al modello di machine learning che alimenta la funzionalità di rilevamento delle anomalie. Questo ciclo di feedback è essenziale per migliorare l'accuratezza del modello e garantire che sia in grado di rilevare efficacemente le anomalie in linea con i requisiti aziendali e i modelli di dati specifici.