Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Métriques et dimensions dans le service géré pour Apache Flink
Lorsque votre service géré pour Apache Flink traite une source de données, le service géré pour Apache Flink communique les mesures et dimensions suivantes à Amazon. CloudWatch
Modifications des métriques de Flink 2.2
Flink 2.2 introduit des modifications des métriques susceptibles d'affecter votre surveillance et vos alarmes. Vérifiez les modifications suivantes avant de procéder à la mise à niveau :
La
fullRestartsmétrique a été supprimée. UtiliseznumRestartsà la place.Les
downtimemétriquesuptimeet sont obsolètes et seront supprimées dans une future version. Migrez vers les nouvelles métriques spécifiques à l'État.La
bytesRequestedPerFetchmétrique du connecteur Kinesis Data Streams 6.0.0 a été supprimée.
Métriques d'application
| Métrique | Unité | Description | Niveau | Notes d’utilisation |
|---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Millisecondes | Durée (en millisecondes) pendant laquelle cette tâche ou cet opérateur subit une contre-pression par seconde. | Tâche, opérateur, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Ces mesures peuvent être utiles pour identifier les goulots d’étranglement d’une application. |
busyTimeMsPerSecond* |
Millisecondes | Durée (en millisecondes) pendant laquelle cette tâche ou cet opérateur est occupé (ni inactif ni en train de subir une contre-pression) par seconde. Peut être NaN, si la valeur n’a pas pu être calculée. | Tâche, opérateur, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Ces mesures peuvent être utiles pour identifier les goulots d’étranglement d’une application. |
cpuUtilization |
Pourcentage | Pourcentage global d’utilisation du processus dans les gestionnaires de tâches. Par exemple, s’il existe cinq gestionnaires de tâches, le service géré pour Apache Flink publie cinq échantillons de cette métrique par intervalle de reporting. | Application | Vous pouvez utiliser cette métrique pour surveiller l’utilisation minimale, moyenne et maximale du processeur dans votre application. La CPUUtilization métrique prend uniquement en compte l'utilisation du processeur par le processus TaskManager JVM exécuté dans le conteneur. |
containerCPUUtilization |
Pourcentage | Pourcentage global d’utilisation du processeur dans les conteneurs du gestionnaire de tâches du cluster d’applications Flink. Par exemple, s'il existe cinq gestionnaires de tâches, il y a donc cinq TaskManager conteneurs et Managed Service for Apache Flink publie 2* cinq échantillons de cette métrique par intervalle de rapport d'une minute. | Application | Calculé par conteneur comme suit : Temps CPU total (en secondes) consommé par le conteneur* 100/ Limite du processeur du conteneur (en CPUs /secondes) La |
containerMemoryUtilization |
Pourcentage | Pourcentage global d’utilisation de la mémoire dans les conteneurs du gestionnaire de tâches du cluster d’applications Flink. Par exemple, s'il existe cinq gestionnaires de tâches, il y a donc cinq TaskManager conteneurs et Managed Service for Apache Flink publie 2* cinq échantillons de cette métrique par intervalle de rapport d'une minute. | Application | Calculé par conteneur comme suit : Utilisation de la mémoire du conteneur (octets) x 100/limite de mémoire du conteneur selon les spécifications de déploiement du pod (en octets) Les |
containerDiskUtilization |
Pourcentage | Pourcentage global d’utilisation du disque dans les conteneurs du gestionnaire de tâches du cluster d’applications Flink. Par exemple, s'il existe cinq gestionnaires de tâches, il y a donc cinq TaskManager conteneurs et Managed Service for Apache Flink publie 2* cinq échantillons de cette métrique par intervalle de rapport d'une minute. | Application | Calculé par conteneur comme suit : Utilisation du disque en octets* 100/limite de disque pour le conteneur en octets Pour les conteneurs, cela représente l’utilisation du système de fichiers sur lequel le volume racine du conteneur est configuré. |
currentInputWatermark |
Millisecondes | Le dernier filigrane que cela application/operator/task/thread a reçu | Application, opérateur, tâche, parallélisme | Cet enregistrement n’est émis que pour les dimensions à deux entrées. Il s’agit de la valeur minimale des derniers filigranes reçus. |
currentOutputWatermark |
Millisecondes | Le dernier filigrane que cela application/operator/task/thread a émis | Application, opérateur, tâche, parallélisme | |
downtime[OBSOLÈTE] |
Millisecondes | Pour les emplois actuellement en failing/recovering situation, le temps s'est écoulé pendant cette interruption. | Application | Cette métrique mesure le temps écoulé pendant l’échec ou la récupération d’une tâche. Cette métrique renvoie 0 pour les tâches en cours d’exécution et -1 pour les tâches terminées. Si cette métrique n’est pas égale à 0 ou -1, cela indique que la tâche Apache Flink de l’application n’a pas pu être exécuté. Obsolète dans Flink 2.2. Utilisez |
failingTime |
Millisecondes | Durée (en millisecondes) pendant laquelle l'application est restée en panne. Utilisez cette métrique pour surveiller les défaillances des applications et déclencher des alertes. | Application, flux | Disponible à partir de Flink 2.2. Remplace une partie de la métrique obsolète. downtime |
heapMemoryUtilization |
Pourcentage | Utilisation globale de la mémoire de tas dans les gestionnaires de tâches. Par exemple, s’il existe cinq gestionnaires de tâches, le service géré pour Apache Flink publie cinq échantillons de cette métrique par intervalle de reporting. | Application | Vous pouvez utiliser cette métrique pour surveiller l’utilisation minimale, moyenne et maximale de l’utilisation de la mémoire de tas dans votre application. Le HeapMemoryUtilization seul prend en compte des métriques de mémoire spécifiques, telles que l'utilisation de la mémoire par segment de mémoire de la TaskManager JVM. |
idleTimeMsPerSecond* |
Millisecondes | Durée (en millisecondes) pendant laquelle cette tâche ou cet opérateur est inactif (n’a aucune donnée à traiter) par seconde. Le temps d’inactivité exclut le temps de contre-pression. Ainsi, si la tâche est contre-pressée, elle n’est pas inactive. | Tâche, opérateur, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Ces mesures peuvent être utiles pour identifier les goulots d’étranglement d’une application. |
lastCheckpointSize |
Octets | La taille totale du dernier point de contrôle | Application | Vous pouvez utiliser cette métrique pour déterminer l’utilisation du stockage des applications en cours d’exécution. Si la valeur de cette métrique augmente, cela peut indiquer un problème lié à votre application, tel qu’une fuite de mémoire ou un goulot d’étranglement. |
lastCheckpointDuration |
Millisecondes | Le temps qu’il a fallu pour terminer le dernier point de contrôle | Application | Cette métrique mesure le temps nécessaire pour terminer le point de contrôle le plus récent. Si la valeur de cette métrique augmente, cela peut indiquer un problème lié à votre application, tel qu’une fuite de mémoire ou un goulot d’étranglement. Dans certains cas, vous pouvez résoudre ce problème en désactivant le point de contrôle. |
managedMemoryUsed* |
Octets | Quantité de mémoire gérée actuellement en cours d’utilisation. | Application, opérateur, tâche, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Cela concerne la mémoire gérée par Flink en dehors du tas de Java. Elle est utilisée pour le backend d’état RocksDB et est également disponible pour les applications. |
managedMemoryTotal* |
Octets | Quantité totale de mémoire gérée. | Application, opérateur, tâche, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Cela concerne la mémoire gérée par Flink en dehors du tas de Java. Elle est utilisée pour le backend d’état RocksDB et est également disponible pour les applications. La métrique |
managedMemoryUtilization* |
Pourcentage | Dérivé par managedMemoryUsed/managedMemoryTotal | Application, opérateur, tâche, parallélisme | *Disponible pour les applications de service géré pour Apache Flink exécutant la version 1.13 de Flink uniquement. Cela concerne la mémoire gérée par Flink en dehors du tas de Java. Elle est utilisée pour le backend d’état RocksDB et est également disponible pour les applications. |
numberOfFailedCheckpoints |
Nombre | Nombre de fois que le point de contrôle a échoué. | Application | Vous pouvez utiliser cette métrique pour surveiller l’état et la progression des applications. Les points de contrôle peuvent échouer en raison de problèmes d’application, tels que des problèmes de débit ou d’autorisation. |
numRecordsIn* |
Nombre | Nombre total d’enregistrements reçus par cette application, cet opérateur ou cette tâche. | Application, opérateur, tâche, parallélisme | *Pour appliquer la statistique SUM sur une période donnée (seconde/minute) :
Le niveau de la métrique indique si cette métrique mesure le nombre total d’enregistrements reçus par l’ensemble de l’application, un opérateur spécifique ou une tâche spécifique. |
numRecordsInPerSecond* |
Nombre/seconde | Nombre total d’enregistrements reçus par cette application, cet opérateur ou cette tâche par seconde. | Application, opérateur, tâche, parallélisme | *Pour appliquer la statistique SUM sur une période donnée (seconde/minute) :
Le niveau de la métrique indique si cette métrique mesure le nombre total d’enregistrements reçus par l’ensemble de l’application, un opérateur spécifique ou une tâche spécifique par seconde. |
numRecordsOut* |
Nombre | Nombre total d’enregistrements émis par cette application, cet opérateur ou cette tâche. | Application, opérateur, tâche, parallélisme |
*Pour appliquer la statistique SUM sur une période donnée (seconde/minute) :
Le niveau de la métrique indique si cette métrique mesure le nombre total d’enregistrements émis par l’ensemble de l’application, un opérateur spécifique ou une tâche spécifique. |
numLateRecordsDropped* |
Nombre | Application, opérateur, tâche, parallélisme | *Pour appliquer la statistique SUM sur une période donnée (seconde/minute) :
Le nombre d’enregistrements que cet opérateur ou cette tâche a perdus en raison de son arrivée tardive. |
|
numRecordsOutPerSecond* |
Nombre/seconde | Nombre total d’enregistrements émis par cette application, cet opérateur ou cette tâche par seconde. | Application, opérateur, tâche, parallélisme |
*Pour appliquer la statistique SUM sur une période donnée (seconde/minute) :
Le niveau de la métrique indique si cette métrique mesure le nombre total d’enregistrements émis par l’ensemble de l’application, un opérateur spécifique ou une tâche spécifique par seconde. |
oldGenerationGCCount |
Nombre | Le nombre total d’anciennes opérations de récupérateur de mémoire qui ont eu lieu dans tous les gestionnaires de tâches. | Application | |
oldGenerationGCTime |
Millisecondes | Le temps total passé à effectuer d’anciennes opérations de récupérateur de mémoire. | Application | Vous pouvez utiliser cette métrique pour surveiller la durée totale, moyenne et maximale de récupérateur de mémoire. |
threadsCount |
Nombre | Nombre total de threads actifs utilisés par l’application. | Application | Cette métrique mesure le nombre de threads utilisés par le code de l’application. Ce n’est pas la même chose que le parallélisme des applications. |
cancellingTime |
Millisecondes | Durée (en millisecondes) pendant laquelle l'application est en état d'annulation. Utilisez cette métrique pour surveiller les opérations d'annulation d'applications. | Application, flux | Disponible à partir de Flink 2.2. Remplace une partie de la métrique obsolète. downtime |
restartingTime |
Millisecondes | Temps (en millisecondes) passé par l'application au redémarrage. Utilisez cette métrique pour surveiller le comportement de redémarrage des applications. | Application, flux | Disponible à partir de Flink 2.2. Remplace une partie de la métrique obsolète. downtime |
runningTime |
Millisecondes | Durée (en millisecondes) pendant laquelle l'application a été exécutée sans interruption. Remplace la métrique obsolète. uptime |
Application, flux | Disponible à partir de Flink 2.2. À utiliser en remplacement direct de la métrique obsolète. uptime |
uptime[OBSOLÈTE] |
Millisecondes | Durée pendant laquelle la tâche a été exécutée sans interruption. | Application | Vous pouvez utiliser cette métrique pour déterminer si une tâche s’exécute correctement. Cette métrique renvoie -1 pour les tâches terminées. Obsolète dans Flink 2.2. Utilisez |
jobmanagerFileDescriptorsMax |
Nombre | Le nombre maximum de descripteurs de fichiers disponibles pour. JobManager | Application, flux, hôte | Utilisez cette métrique pour surveiller la capacité des descripteurs de fichiers. |
jobmanagerFileDescriptorsOpen |
Nombre | Le nombre actuel de descripteurs de fichiers ouverts pour le JobManager. | Application, flux, hôte | Utilisez cette métrique pour surveiller l'utilisation des descripteurs de fichiers et détecter l'épuisement potentiel des ressources. |
taskmanagerFileDescriptorsMax |
Nombre | Le nombre maximum de descripteurs de fichiers disponibles pour chacun TaskManager. | Application, flux, hôte, tm_id | Utilisez cette métrique pour surveiller la capacité des descripteurs de fichiers. |
taskmanagerFileDescriptorsOpen |
Nombre | Le nombre actuel de descripteurs de fichiers ouverts pour chacun TaskManager d'entre eux. | Application, flux, hôte, tm_id | Utilisez cette métrique pour surveiller l'utilisation des descripteurs de fichiers et détecter l'épuisement potentiel des ressources. |
KPUs* |
Nombre | Le nombre total de personnes KPUs utilisées par l'application. | Application | *Cette métrique reçoit un échantillon par période de facturation (une heure). Pour visualiser le nombre de KPUs prolongations, utilisez MAX ou AVG sur une période d'au moins une (1) heure. Le nombre de KPU inclut les |
Guide de migration métrique de Flink 2.2
Migration depuis FullRestarts : La fullRestarts métrique a été supprimée dans Flink 2.2. Utilisez plutôt la numRestarts métrique. La numRestarts métrique fournit des fonctionnalités équivalentes et peut être utilisée en remplacement direct des CloudWatch alarmes sans nécessiter d'ajustement de seuil.
Migration depuis la disponibilité : la uptime métrique est obsolète dans Flink 2.2 et sera supprimée dans une future version. Utilisez plutôt la runningTime métrique. La runningTime métrique fournit des fonctionnalités équivalentes et peut être utilisée en remplacement direct des CloudWatch alarmes sans nécessiter d'ajustement de seuil.
Migration après une interruption de service : la downtime métrique est obsolète dans Flink 2.2 et sera supprimée dans une future version. En fonction de ce que vous souhaitez surveiller, utilisez une ou plusieurs des métriques suivantes :
restartingTime: Surveillez le temps passé à redémarrer l'applicationcancellingTime: Surveillez le temps passé à annuler l'applicationfailingTime: Surveillez le temps passé dans un état défaillant
Métriques du connecteur Kinesis Data Streams
AWS émet tous les enregistrements pour Kinesis Data Streams, en plus des suivants :
| Métrique | Unité | Description | Niveau | Notes d’utilisation |
|---|---|---|---|---|
millisbehindLatest |
Millisecondes | Le nombre de millisecondes où le consommateur est en retard par rapport au début du flux, qui indique le retard que subit le consommateur. | Application (pour Stream), Parallélisme (pour) ShardId |
|
Note
La bytesRequestedPerFetch métrique a été supprimée dans la version 6.0.0 AWS du connecteur Flink (la seule version de connecteur compatible avec Flink 2.2). La seule métrique du connecteur Kinesis Data Streams disponible dans Flink 2.2 est. millisBehindLatest
Métriques du connecteur Amazon MSK
AWS émet tous les enregistrements pour Amazon MSK en plus des suivants :
| Métrique | Unité | Description | Niveau | Notes d’utilisation |
|---|---|---|---|---|
currentoffsets |
N/A | Le décalage de lecture actuel du consommateur, pour chaque partition. La métrique d’une partition particulière peut être spécifiée par le nom de la rubrique et l’identifiant de la partition. | Application (pour le sujet), Parallélisme (pour) PartitionId | |
commitsFailed |
N/A | Le nombre total d’échecs de validation de décalage pour Kafka, si la validation de décalage et le point de contrôle sont activés. | Application, opérateur, tâche, parallélisme | La réattribution des validations de décalage à Kafka n’est qu’un moyen de révéler les progrès réalisés par les consommateurs. Un échec de validation n’affecte donc pas l’intégrité des décalages de partition à points de contrôle de Flink. |
commitsSucceeded |
N/A | Le nombre total de validations de décalage réussies dans Kafka, si la validation de décalage et les points de contrôle sont activés. | Application, opérateur, tâche, parallélisme | |
committedoffsets |
N/A | Le dernier décalage correctement validé dans Kafka, pour chaque partition. La métrique d’une partition particulière peut être spécifiée par le nom de la rubrique et l’identifiant de la partition. | Application (pour le sujet), Parallélisme (pour) PartitionId | |
records_lag_max |
Nombre | Le décalage maximal en termes de nombre d’enregistrements pour chaque partition de cette fenêtre | Application, opérateur, tâche, parallélisme | |
bytes_consumed_rate |
Octets | Nombre moyen d’octets consommés par seconde pour une rubrique | Application, opérateur, tâche, parallélisme |
Métriques d'Apache Zeppelin
Pour les blocs-notes Studio, AWS émet les mesures suivantes au niveau de l'application :KPUs,cpuUtilization, heapMemoryUtilization oldGenerationGCTimeoldGenerationGCCount, et. threadCount En outre, il émet les métriques indiquées dans le tableau suivant, également au niveau de l’application.
| Métrique | Unité | Description | Nom Prometheus |
|---|---|---|---|
zeppelinCpuUtilization |
Pourcentage | Pourcentage global d’utilisation du processeur sur le serveur Apache Zeppelin. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Pourcentage | Pourcentage global d’utilisation de la mémoire de tas pour le serveur Apache Zeppelin. | jvm_memory_used_bytes |
zeppelinThreadCount |
Nombre | Le nombre total de threads actifs utilisés par le serveur Apache Zeppelin. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Nombre | Le nombre de tâches Apache Zeppelin en attente d’un thread. | jetty_threads_jobs |
zeppelinServerUptime |
Secondes | Durée totale pendant laquelle le serveur a été opérationnel. | process_uptime_seconds |