Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Metriken und Dimensionen in Managed Service für Apache Flink
Wenn Ihr Managed Service für Apache Flink eine Datenquelle verarbeitet, meldet Managed Service for Apache Flink die folgenden Metriken und Dimensionen an Amazon. CloudWatch
Änderungen der Flink 2.2-Metrik
Flink 2.2 führt metrische Änderungen ein, die sich auf Ihre Überwachung und Alarme auswirken können. Überprüfen Sie vor dem Upgrade die folgenden Änderungen:
Die
fullRestartsMetrik wurde entfernt. Verwenden Sie stattdessennumRestarts.Die
downtimeMetrikenuptimeund sind veraltet und werden in einer future Version entfernt. Migrieren Sie zu den neuen landesspezifischen Metriken.Die
bytesRequestedPerFetchMetrik für den Kinesis Data Streams Streams-Connector 6.0.0 wurde entfernt.
Anwendungsmetriken
| Metrik | Einheit | Description | Level | Nutzungshinweise |
|---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Millisekunden | Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde unter Gegendruck gesetzt wird. | Aufgabe, Operator, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. |
busyTimeMsPerSecond* |
Millisekunden | Die Zeit (in Millisekunden), in der diese Aufgabe oder dieser Operator pro Sekunde beschäftigt (weder inaktiv noch unter Gegendruck gesetzt) ist. Kann NaN sein, wenn der Wert nicht berechnet werden konnte. | Aufgabe, Operator, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. |
cpuUtilization |
Prozentsatz | Prozentsatz der CPU-Auslastung in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. | Anwendung | Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale CPU-Auslastung in Ihrer Anwendung zu überwachen. Die CPUUtilization Metrik berücksichtigt nur die CPU-Auslastung des TaskManager JVM-Prozesses, der im Container ausgeführt wird. |
containerCPUUtilization |
Prozentsatz | Gesamtprozentsatz der CPU-Auslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: Gesamt-CPU-Zeit (in Sekunden), die vom Container verbraucht wird * 100/Container-CPU-Limit (in CPUs /Sekunden) Die |
containerMemoryUtilization |
Prozentsatz | Gesamtprozentsatz der Speicherauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von 1 Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: Speichernutzung des Containers (Byte) * 100/Container-Speicherlimit gemäß der Pod-Bereitstellungsspezifikation (in Byte) Die |
containerDiskUtilization |
Prozentsatz | Gesamtprozentsatz der Festplattenauslastung in allen Task-Manager-Containern im Flink-Anwendungscluster. Wenn es beispielsweise fünf Taskmanager gibt, gibt es entsprechend fünf TaskManager Container, und Managed Service for Apache Flink veröffentlicht pro Berichtsintervall von einer Minute 2 x fünf Stichproben dieser Metrik. | Anwendung | Sie wird pro Container wie folgt berechnet: Festplattennutzung in Byte * 100/Festplattenlimit für Container in Byte Bei Containern steht dies für die Nutzung des Dateisystems, auf dem das Root-Volume des Containers eingerichtet ist. |
currentInputWatermark |
Millisekunden | Das letzte Wasserzeichen, das diese Datei erhalten hat application/operator/task/thread | Anwendung, Operator, Aufgabe, Parallelität | Dieser Datensatz wird nur für Dimensionen mit zwei Eingaben ausgegeben. Dies ist der Mindestwert der zuletzt empfangenen Wasserzeichen. |
currentOutputWatermark |
Millisekunden | Das letzte Wasserzeichen, das dadurch application/operator/task/thread ausgegeben wurde | Anwendung, Operator, Aufgabe, Parallelität | |
downtime[VERALTET] |
Millisekunden | Bei Jobs, die sich derzeit in einer failing/recovering Situation befinden, ist dies die Zeit, die während dieses Ausfalls verstrichen ist. | Anwendung | Diese Kennzahl misst die Zeit, die verstrichen ist, während ein Job ausfällt oder wiederhergestellt wird. Diese Metrik gibt 0 für laufende Jobs und -1 für abgeschlossene Jobs zurück. Wenn diese Metrik nicht 0 oder -1 ist, bedeutet dies, dass der Apache Flink-Job für die Anwendung nicht ausgeführt werden konnte. In Flink 2.2 veraltet. Verwenden Sie stattdessen |
failingTime |
Millisekunden | Die Zeit (in Millisekunden), die die Anwendung in einem fehlerhaften Zustand verbracht hat. Verwenden Sie diese Metrik, um Anwendungsausfälle zu überwachen und Warnmeldungen auszulösen. | Anwendung, Ablauf | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. |
heapMemoryUtilization |
Prozentsatz | Gesamtauslastung des Heap-Speichers in allen Task-Managern. Wenn es beispielsweise fünf Taskmanager gibt, veröffentlicht Managed Service für Apache Flink pro Berichtsintervall fünf Beispiele dieser Metrik. | Anwendung | Sie können diese Metrik verwenden, um die minimale, durchschnittliche und maximale Heap-Speicherauslastung in Ihrer Anwendung zu überwachen. Sie berücksichtigt HeapMemoryUtilization nur bestimmte Speichermetriken wie die Heap-Speicherauslastung von JVM. TaskManager |
idleTimeMsPerSecond* |
Millisekunden | Die Zeit (in Millisekunden), in der sich diese Task oder dieser Operator pro Sekunde im Leerlauf befindet (keine zu verarbeitenden Daten hat). Bei der Leerlaufzeit wird die Zeit nicht berücksichtigt, in der Gegendruck ausgeübt wird, wenn also die Aufgabe unter Gegendruck steht, handelt es sich nicht um Inaktivität. | Aufgabe, Operator, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Diese Metriken können nützlich sein, um Engpässe in einer Anwendung zu identifizieren. |
lastCheckpointSize |
Bytes | Die Gesamtgröße des letzten Prüfpunkts | Anwendung | Sie können diese Metrik verwenden, um die Speicherauslastung laufender Anwendungen zu ermitteln. Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass. |
lastCheckpointDuration |
Millisekunden | Die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen | Anwendung | Diese Kennzahl misst die Zeit, die benötigt wurde, um den letzten Prüfpunkt abzuschließen. Wenn der Wert dieser Metrik steigt, kann dies darauf hindeuten, dass ein Problem mit Ihrer Anwendung vorliegt, z. B. ein Speicherleck oder ein Engpass. In einigen Fällen können Sie dieses Problem beheben, indem Sie die Prüfpunktprüfung deaktivieren. |
managedMemoryUsed* |
Bytes | Die derzeit verwendete verwaltete Speichermenge. | Anwendung, Operator, Aufgabe, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. |
managedMemoryTotal* |
Bytes | Die Gesamtgröße des verwalteten Speichers. | Anwendung, Operator, Aufgabe, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. Die |
managedMemoryUtilization* |
Prozentsatz | Abgeleitet von/ managedMemoryUsedmanagedMemoryTotal | Anwendung, Operator, Aufgabe, Parallelität | *Nur für Managed Service für Apache Flink-Anwendungen verfügbar, auf denen Flink Version 1.13 ausgeführt wird. Dies bezieht sich auf Speicher, der von Flink außerhalb des Java-Heaps verwaltet wird. Es wird für das RocksDB-State-Backend verwendet und ist auch für Anwendungen verfügbar. |
numberOfFailedCheckpoints |
Anzahl | Gibt an, wie oft die Prüfpunktüberprüfung fehlgeschlagen ist. | Anwendung | Sie können diese Metrik verwenden, um den Zustand und den Fortschritt von Anwendungen zu überwachen. Prüfpunkte können aufgrund von Anwendungsproblemen wie Durchsatz- oder Berechtigungsprobleme fehlschlagen. |
numRecordsIn* |
Anzahl | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe erhalten hat. | Anwendung, Operator, Aufgabe, Parallelität | *Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:
Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe empfangen hat. |
numRecordsInPerSecond* |
Anzahl/Sekunde | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde erhalten hat. | Anwendung, Operator, Aufgabe, Parallelität | *Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:
Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde empfangen hat. |
numRecordsOut* |
Anzahl | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe ausgegeben hat. | Anwendung, Operator, Aufgabe, Parallelität |
*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:
Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe ausgegeben hat. |
numLateRecordsDropped* |
Anzahl | Anwendung, Operator, Aufgabe, Parallelität | *Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:
Die Anzahl der Datensätze, die dieser Operator oder diese Aufgabe aufgrund einer verspäteten Ankunft gelöscht hat. |
|
numRecordsOutPerSecond* |
Anzahl/Sekunde | Die Gesamtzahl der Datensätze, die diese Anwendung, dieser Operator oder diese Aufgabe pro Sekunde ausgegeben hat. | Anwendung, Operator, Aufgabe, Parallelität |
*Um die SUM-Statistik über einen bestimmten Zeitraum (Sekunde/Minute) anzuwenden:
Die Ebene der Metrik gibt an, ob diese Metrik die Gesamtzahl der Datensätze misst, die die gesamte Anwendung, ein bestimmter Operator oder eine bestimmte Aufgabe pro Sekunde ausgegeben hat. |
oldGenerationGCCount |
Anzahl | Die Gesamtzahl der alten Garbage-Collection-Vorgänge, die in allen Task-Managern stattgefunden haben. | Anwendung | |
oldGenerationGCTime |
Millisekunden | Die Gesamtzeit, die für die Durchführung alter Garbage-Collection-Vorgänge aufgewendet wurde. | Anwendung | Sie können diese Metrik verwenden, um die Summe, den Durchschnitt und die maximale Zeit für die Garbage Collection zu überwachen. |
threadsCount |
Anzahl | Die Gesamtzahl der von der Anwendung verwendeten Live-Threads. | Anwendung | Diese Metrik misst die Anzahl der Threads, die vom Anwendungscode verwendet werden. Dies ist nicht dasselbe wie Anwendungsparallelität. |
cancellingTime |
Millisekunden | Die Zeit (in Millisekunden), die die Anwendung im Abbruchstatus verbracht hat. Verwenden Sie diese Metrik, um Vorgänge zum Abbrechen von Anwendungen zu überwachen. | Anwendung, Ablauf | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. |
restartingTime |
Millisekunden | Die Zeit (in Millisekunden), die die Anwendung im Neustartzustand verbracht hat. Verwenden Sie diese Metrik, um das Neustartverhalten von Anwendungen zu überwachen. | Anwendung, Flow | Verfügbar ab Flink 2.2. Ersetzt einen Teil der veralteten Metrikdowntime. |
runningTime |
Millisekunden | Die Zeit (in Millisekunden), zu der die Anwendung ohne Unterbrechung ausgeführt wurde. Ersetzt die veraltete Metrik. uptime |
Anwendung, Ablauf | Verfügbar ab Flink 2.2. Verwenden Sie es als direkten Ersatz für die veraltete Metrikuptime. |
uptime[VERALTET] |
Millisekunden | Die Zeit, zu der der Job ohne Unterbrechung ausgeführt wurde. | Anwendung | Sie können diese Metrik verwenden, um festzustellen, ob ein Job erfolgreich ausgeführt wird. Diese Metrik gibt -1 für abgeschlossene Jobs zurück. In Flink 2.2 veraltet. Verwenden Sie stattdessen |
jobmanagerFileDescriptorsMax |
Anzahl | Die maximale Anzahl von Dateideskriptoren, die für verfügbar sind. JobManager | Anwendung, Flow, Host | Verwenden Sie diese Metrik, um die Kapazität von Dateideskriptoren zu überwachen. |
jobmanagerFileDescriptorsOpen |
Anzahl | Die aktuelle Anzahl offener Dateideskriptoren für. JobManager | Anwendung, Flow, Host | Verwenden Sie diese Metrik, um die Nutzung von Dateideskriptoren zu überwachen und eine potenzielle Ressourcenerschöpfung zu erkennen. |
taskmanagerFileDescriptorsMax |
Anzahl | Die maximale Anzahl von Dateideskriptoren, die jedem zur Verfügung stehen. TaskManager | Anwendung, Flow, Host, tm_id | Verwenden Sie diese Metrik, um die Kapazität von Dateideskriptoren zu überwachen. |
taskmanagerFileDescriptorsOpen |
Anzahl | Die aktuelle Anzahl der offenen Dateideskriptoren für jeden. TaskManager | Anwendung, Flow, Host, tm_id | Verwenden Sie diese Metrik, um die Nutzung von Dateideskriptoren zu überwachen und eine potenzielle Ressourcenerschöpfung zu erkennen. |
KPUs* |
Anzahl | Die Gesamtzahl der von der KPUs Anwendung verwendeten. | Anwendung | *Für diese Kennzahl wird eine Stichprobe pro Abrechnungszeitraum (eine Stunde) verwendet. Verwenden Sie MAX oder AVG KPUs über einen Zeitraum von mindestens einer (1) Stunde, um die Anzahl der Ereignisse im Laufe der Zeit zu visualisieren. Die KPU-Anzahl beinhaltet die |
Leitfaden für die Migration metrischer Daten zu Flink 2.2
Migration von FullRestarts: Die fullRestarts Metrik wurde in Flink 2.2 entfernt. Verwenden Sie stattdessen die MetriknumRestarts. Die numRestarts Metrik bietet gleichwertige Funktionen und kann als direkter Ersatz für CloudWatch Alarme verwendet werden, ohne dass Schwellenwertanpassungen erforderlich sind.
Migration von Uptime: Die uptime Metrik ist in Flink 2.2 veraltet und wird in einer future Version entfernt. Verwenden Sie stattdessen die Metrik. runningTime Die runningTime Metrik bietet gleichwertige Funktionen und kann als direkter Ersatz für CloudWatch Alarme verwendet werden, ohne dass Schwellenwertanpassungen erforderlich sind.
Migration nach einer Ausfallzeit: Die downtime Metrik ist in Flink 2.2 veraltet und wird in einer future Version entfernt. Je nachdem, was Sie überwachen möchten, verwenden Sie eine oder mehrere der folgenden Metriken:
restartingTime: Überwachen Sie die Zeit, die für den Neustart der Anwendung aufgewendet wurdecancellingTime: Überwachen Sie die Zeit, die für das Abbrechen der Anwendung aufgewendet wurdefailingTime: Überwachen Sie die Zeit, die in einem fehlerhaften Zustand verbracht wurde
Metriken für den Kinesis Data Streams Streams-Konnektor
AWS gibt alle Datensätze für Kinesis Data Streams zusätzlich zu den folgenden aus:
| Metrik | Einheit | Description | Level | Nutzungshinweise |
|---|---|---|---|---|
millisbehindLatest |
Millisekunden | Die Anzahl der Millisekunden, die der Verbraucher hinter der Spitze des Streams zurückliegt. Dies zeigt an, wie weit der Verbraucher hinter der aktuellen Zeit zurückliegt. | Anwendung (für Stream), Parallelismus (für) ShardId |
|
Anmerkung
Die bytesRequestedPerFetch Metrik wurde in der AWS Flink-Connector-Version 6.0.0 (der einzigen Connector-Version, die mit Flink 2.2 kompatibel ist) entfernt. Die einzige in Flink 2.2 verfügbare Kinesis Data Streams Streams-Connector-Metrik ist. millisBehindLatest
Amazon MSK-Connector-Metriken
AWS gibt alle Datensätze für Amazon MSK zusätzlich zu den folgenden aus:
| Metrik | Einheit | Description | Level | Nutzungshinweise |
|---|---|---|---|---|
currentoffsets |
– | Der aktuelle Lese-Offset des Verbrauchers für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. | Anwendung (für Thema), Parallelität (für) PartitionId | |
commitsFailed |
– | Die Gesamtzahl der Fehler beim Offset-Commit an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind. | Anwendung, Operator, Aufgabe, Parallelität | Das Zurückschreiben von Offsets an Kafka ist nur ein Mittel, um den Verbraucherfortschritt aufzudecken. Ein Commit-Fehler beeinträchtigt also nicht die Integrität der Prüfpunkt-Partitions-Offsets von Flink. |
commitsSucceeded |
– | Die Gesamtzahl erfolgreichen Offset-Commits an Kafka, wenn Offset-Commit und Prüfpunktprüfung aktiviert sind. | Anwendung, Operator, Aufgabe, Parallelität | |
committedoffsets |
– | Die letzten erfolgreich an Kafka übergebenen Offsets für jede Partition. Die Metrik einer bestimmten Partition kann anhand des Themennamens und der Partitions-ID angegeben werden. | Anwendung (für Thema), Parallelität (für) PartitionId | |
records_lag_max |
Anzahl | Die maximale Verzögerung in Bezug auf die Anzahl der Datensätze für jede Partition in diesem Fenster | Anwendung, Operator, Aufgabe, Parallelität | |
bytes_consumed_rate |
Bytes | Die durchschnittliche Anzahl von Bytes, die pro Sekunde für ein Thema verbraucht werden | Anwendung, Operator, Aufgabe, Parallelität |
Apache Zeppelin-Metriken
Gibt für AWS Studio-Notebooks die folgenden Metriken auf Anwendungsebene aus:KPUs,,cpuUtilization, heapMemoryUtilizationoldGenerationGCTime, oldGenerationGCCount und. threadCount Darüber hinaus werden die in der folgenden Tabelle aufgeführten Metriken auch auf Anwendungsebene ausgegeben.
| Metrik | Einheit | Description | Prometheus-Name |
|---|---|---|---|
zeppelinCpuUtilization |
Prozentsatz | Gesamtprozentsatz der CPU-Auslastung auf dem Apache Zeppelin-Server. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Prozentsatz | Gesamtprozentsatz der Heap-Speicherauslastung für den Apache Zeppelin-Server. | jvm_memory_used_bytes |
zeppelinThreadCount |
Anzahl | Die Gesamtzahl der vom Apache Zeppelin-Server verwendeten Live-Threads. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Anzahl | Die Anzahl der Apache Zeppelin-Jobs in der Warteschlange, die auf einen Thread warten. | jetty_threads_jobs |
zeppelinServerUptime |
Sekunden | Die Gesamtzeit, in der der Server betriebsbereit war. | process_uptime_seconds |