Configuration de la détection des anomalies dans les tâches AWS Glue ETL - AWS Glue

Configuration de la détection des anomalies dans les tâches AWS Glue ETL

Pour commencer à détecter les anomalies dans AWS Glue Studio, ouvrez une tâche AWS Glue Studio et cliquez sur Évaluer la transformation de la qualité des données.

En activant cette fonctionnalité, la Qualité des données d’AWS Glue analysera vos données au fil du temps afin de détecter les anomalies. Elle fournit des statistiques et des observations précieuses sur vos données, vous permettant de prendre des mesures en cas d’anomalie identifiée.

Consultez la documentation sur la détection des anomalies pour comprendre le fonctionnement interne de cette fonctionnalité.

Activation de la détection des anomalies

Pour activer la détection d’anomalies dans AWS Glue Studio :
  1. Choisissez le nœud Qualité des données dans votre tâche, puis cliquez sur l’onglet Détection des anomalies. Activez l’option Activer la détection des anomalies.

    La capture d’écran montre la sélection de l’option « Activer la détection des anomalies ». Peut être activée ou désactivée.
  2. Définissez les données à surveiller pour détecter les anomalies en choisissant Ajouter un analyseur. Vous pouvez remplir deux champs : statistiques et données.

    • Les statistiques sont des informations sur la forme et les autres propriétés de vos données. Vous pouvez sélectionner une ou plusieurs statistiques à la fois ou sélectionner Toutes les statistiques. Les statistiques comprennent : Completeness, Uniqueness, Mean, Sum, StandardDeviation, Entropy, DistinctValuesCount, UniqueValueRatio, etc. Pour plus de détails, consultez la documentation sur les analyseurs.

    • Les données sont les colonnes de votre jeu de données. Vous pouvez choisir toutes les colonnes ou des colonnes individuelles.

    La capture d’écran montre les champs pour les statistiques et les données. Vous avez la possibilité de sélectionner les statistiques à appliquer à votre jeu de données et les colonnes concernées.
  3. Choisissez Ajouter une zone de détection d’anomalies pour enregistrer vos modifications. Lorsque vous avez créé des analyseurs, vous pouvez les consulter dans la section Portée de la détection d’anomalies.

    Vous pouvez également utiliser le menu Actions pour modifier vos analyseurs, ou choisir l’onglet Éditeur de jeu de règles et modifier l’analyseur directement dans le bloc-notes de l’éditeur de jeu de règles. Vous verrez les analyseurs que vous avez enregistrés juste en dessous de toutes les règles que vous avez créées.

    Rules = [ ] Analyzers = [ Completeness “id” ]

Une fois l’ensemble de règles et les analyseurs mis à jour configurés, la Qualité des données d’AWS Glue surveille en permanence les flux de données entrants. Le service peut signaler des anomalies potentielles par le biais d’alertes ou d’arrêts de tâches, en fonction de vos paramètres. Cette surveillance proactive permet de garantir la qualité et l’intégrité des données dans l’ensemble de vos pipelines de données.

Dans la section suivante, vous apprendrez comment surveiller efficacement les anomalies identifiées par le système. Vous apprendrez également à consulter et à analyser les statistiques de données recueillies par la Qualité des données d’AWS Glue. En outre, vous apprendrez à fournir des commentaires au modèle de machine learning qui alimente la fonctionnalité de détection des anomalies. Cette boucle de rétroaction est essentielle pour améliorer la précision du modèle et garantir qu’il peut détecter efficacement les anomalies conformes aux exigences spécifiques de votre entreprise et à vos modèles de données.