Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Surveillance de AWS Glue avec des métriques Amazon CloudWatch
Vous pouvez surveiller les opérations d'AWS Glue à l'aide du profileur de tâche AWS Glue. Il collecte et traite les données brutes des tâches AWS Glue en métriques lisibles pratiquement en temps réel stockées dans Amazon CloudWatch. Ces statistiques sont conservées et regroupées dans CloudWatch pour vous permettre d'accéder aux informations historiques et de bénéficier d'une meilleure vision des performances de votre application.
Note
Vous encourez des frais supplémentaires lorsque vous activez métriques de tâche et que des métriques personnalisées CloudWatch sont créées. Pour plus d'informations, consultez Tarification Amazon CloudWatch
Présentation des métriques AWS Glue
Lorsque vous interagissez avec AWS Glue, il envoie des métriques à CloudWatch. Vous pouvez afficher ces métriques dans la console AWS Glue (recommandé), sur le tableau de bord de la console CloudWatch ou dans la AWS Command Line Interface (AWS CLI).
Pour afficher des métriques à l'aide du tableau de bord de la console AWS Glue
Vous pouvez afficher un résumé ou des graphiques détaillés des métriques pour une tâche ou des graphiques détaillés pour l'exécution d'une tâche.
Connectez-vous à la AWS Management Console et ouvrez la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/
. -
Dans le panneau de navigation, choisissez Surveillance de l'exécution des tâches.
-
Dans Exécutions de tâches, choisissez Actions pour arrêter une tâche en cours d'exécution, afficher une tâche ou restaurer le signet d'une tâche.
-
Sélectionnez une tâche, puis choisissez Afficher les informations de l'exécution pour afficher des informations supplémentaires sur l'exécution de la tâche.
Pour afficher des métriques à l'aide du tableau de bord de la console CloudWatch
Les métriques sont d'abord regroupées par espace de noms de service, puis par les différentes combinaisons de dimension au sein de chaque espace de noms.
-
Ouvrez la console CloudWatch à l’adresse https://console.aws.amazon.com/cloudwatch/
. -
Dans le panneau de navigation, sélectionnez Métriques.
-
Sélectionnez l'espace de noms Glue.
Pour afficher les métriques à l'aide de AWS CLI
-
A partir d'une invite de commande, utilisez la commande suivante.
aws cloudwatch list-metrics --namespace Glue
AWS Glue envoie des métriques à CloudWatch toutes les 30 secondes et les tableaux de bord de métriques sont configurés pour les afficher toutes les minutes. Les métriques AWS Glue représentent des valeurs delta des valeurs précédemment rapportées. Le cas échéant, les tableaux de bord de métriques regroupent (additionnent) les valeurs de plages de 30 secondes pour obtenir une valeur pour la totalité de la dernière minute.
Comportement des métriques AWS Glue pour les tâches Spark
Les métriques AWS Glue sont activées à l'initialisation d'un GlueContext dans un script et sont généralement mises à jour uniquement à la fin d'une tâche Apache Spark. Elles représentent les valeurs regroupées sur l'ensemble des tâches Spark terminées jusqu'alors.
D'autre part, les métriques Spark que AWS Glue transmet à CloudWatch sont généralement des valeurs absolues représentant l'état actuel au moment où elles sont signalées. AWS Glue les signale à CloudWatch toutes les 30 secondes et les tableaux de bord de métriques montrent généralement la moyenne entre les points de données reçus au cours de la dernière minute.
Les noms des métriques AWS Glue sont tous précédés par l'un des types suivants de préfixe :
glue.driver.– Les métriques dont les noms commencent par ce préfixe représentent des métriques AWS Glue regroupées à partir de tous les programmes d'exécution dans le pilote Spark ou des métriques Spark correspondant au pilote Spark.glue.executorId.– L'executorId correspond au numéro d'un programme d'exécution Spark spécifique. Il correspond aux programmes d'exécution répertoriés dans les journaux.glue.ALL.- Les métriques dont les noms commencent par ce préfixe regroupent des valeurs de tous les programmes d'exécution Spark.
AWS Glue métriques
AWS Glue dresse le profil et envoie les métriques suivantes à CloudWatch toutes les 30 secondes, tandis que le tableau de bord des métriques AWS Glue les signale une fois par minute :
| Métrique | Description |
|---|---|
|
|
Nombre d'octets lus à partir de toutes les sources de données par toutes les tâches Spark exécutées dans tous les programmes d'exécution. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : octets Peut être utilisé pour contrôler ce qui suit :
Cette métrique peut être utilisée de la même manière que la métrique |
|
|
Le temps écoulé ETL en millisecondes (n'inclut pas les temps d'amorçage de la tâche). Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : millisecondes Peut être utilisé pour déterminer combien le temps moyen requis pour une exécution de tâche. Voici quelques façons d'utiliser les données :
|
|
|
Le nombre d'étapes terminées dans la tâche. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Le nombre de tâches terminées dans la tâche. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
|
|
|
Nombre de tâches ayant échoué. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Les données peuvent être utilisées pour définir des alarmes pour des échecs accrus qui pourraient suggérer des anomalies dans les données, les clusters ou les scripts. |
|
|
Nombre de tâches supprimées. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Nombre d'enregistrements lus à partir de toutes les sources de données par toutes les tâches Spark terminées exécutées dans tous les programmes d'exécution. Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Cette métrique peut être utilisée de manière similaire à la métrique |
|
|
Le nombre d'octets écrits par tous les programmes d'exécution pour remanier des données sur ceux-ci depuis le rapport précédent (agrégé par le tableau de bord des métriques AWS Glue comme le nombre d'octets écrits à cet effet au cours de la minute précédente). Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : octets Peut être utilisé pour contrôler le remaniement de données dans les tâches (jointures volumineuses, GroupBy, répartition, coalesce). Voici quelques façons d'utiliser les données :
|
|
|
Le nombre d'octets lus par tous les programmes d'exécution pour remanier des données sur ceux-ci depuis le rapport précédent (agrégé par le tableau de bord des métriques AWS Glue comme le nombre d'octets lus à cet effet au cours de la minute précédente). Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. Unité : octets Peut être utilisé pour contrôler le remaniement de données dans les tâches (jointures volumineuses, GroupBy, répartition, coalesce). Voici quelques façons d'utiliser les données :
|
|
|
Nombre de mégaoctets d'espace disque utilisés sur tous les programmes d'exécution. Dimensions valides : Statistiques valides : moyenne Il s'agit d'une métrique Spark, rapportée en tant que valeur absolue. Unité : mégaoctets Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Le nombre de programmes d'exécution de tâches actifs en cours d'exécution. Dimensions valides : Statistiques valides : moyenne Il s'agit d'une métrique Spark, rapportée en tant que valeur absolue. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Nombre maximal de programmes d'exécution de tâches (en cours d'exécution et en attente) nécessaires pour satisfaire la charge actuelle. Dimensions valides : Statistiques valides : maximum Il s'agit d'une métrique Spark, rapportée en tant que valeur absolue. Unité : nombre Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
La fraction de mémoire utilisée par la pile de la JVM pour ce pilote (échelle : 0-1) pour le pilote, un programme d'exécution identifié par executorId ou TOUS les programmes d'exécution. Dimensions valides : Statistiques valides : moyenne Il s'agit d'une métrique Spark, rapportée en tant que valeur absolue. Unité : pourcentage Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
le nombre d'octets de mémoire utilisés par la pile JVM pour le pilote, le programme d'exécution identifié par executorId, ou TOUS les programmes d'exécution. Dimensions valides : Statistiques valides : moyenne Il s'agit d'une métrique Spark, rapportée en tant que valeur absolue. Unité : octets Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Le nombre d'octets lus à partir d'Amazon S3 par le pilote, un programme d'exécution identifié par executorId, ou TOUS les programmes d'exécution depuis le rapport précédent (agrégés par le Tableau de bord de métriques AWS Glue comme le nombre d'octets lus pendant la minute précédente). Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le Tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. La zone sous la courbe du Tableau de bord des métriques AWS Glue peut être utilisée pour comparer visuellement les octets lus par deux exécutions de tâches différentes. Unité : octets. Peut être utilisé pour contrôler ce qui suit :
Les données résultantes peuvent être utilisées pour ce qui suit :
|
|
|
Le nombre d'octets écrits à partir d'Amazon S3 par le pilote, un programme d'exécution identifié par executorId, ou TOUS les programmes d'exécution depuis le rapport précédent (agrégés par le Tableau de bord de métriques AWS Glue comme le nombre d'octets écrits pendant la minute précédente). Dimensions valides : Statistiques valides : SUM. Cette métrique est une valeur delta à partir de la dernière valeur signalée, donc sur le Tableau de bord des métriques AWS Glue, une statistique SUM est utilisée pour l'agrégation. La zone sous la courbe du Tableau de bord des métriques AWS Glue peut être utilisée pour comparer visuellement les octets écrits par deux exécutions de tâches différentes. Unité : octets Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
|
|
Nombre d'enregistrements reçus dans un micro-lot. Cette métrique est uniquement disponible pour les tâches de streaming AWS Glue avec AWS Glue version 2.0 et ultérieures. Dimensions valides : Statistiques valides : somme, minimum, maximum, moyenne, percentile Unité : nombre Peut être utilisé pour contrôler ce qui suit :
|
|
|
Temps nécessaire pour traiter les lots en millisecondes. Cette métrique est uniquement disponible pour les tâches de streaming AWS Glue avec AWS Glue version 2.0 et ultérieures. Dimensions valides : Statistiques valides : somme, minimum, maximum, moyenne, percentile Unité : nombre Peut être utilisé pour contrôler ce qui suit :
|
|
|
La fraction de chargement du système UC utilisée (échelle : 0-1) par le pilote, un programme d'exécution identifié par executorId ou tous les programmes d'exécution. Dimensions valides : Statistiques valides : moyenne Cette métrique est rapportée en tant que valeur absolue. Unité : pourcentage Peut être utilisé pour contrôler ce qui suit :
Voici quelques façons d'utiliser les données :
|
Dimensions pour les métriques AWS Glue
Les métriques AWS Glue utilisent l'espace de noms AWS Glue et fournissent des métriques pour les dimensions suivantes :
| Dimension | Description |
|---|---|
|
|
Cette dimension filtre les métriques de toutes les exécutions de tâches d'une tâche AWS Glue spécifique. |
|
|
Cette dimension filtre les métriques d'une tâche AWS Glue spécifique exécutée par un ID JobRun, ou |
|
|
Cette dimension filtre les métriques par |
Pour plus d’informations, consultez le Guide de l’utilisateur Amazon CloudWatch.