アプリケーションメトリクス Kinesis Data Streams コネクタメトリクス Amazon MSK コネクタメトリクス Apache Zeppelin メトリクス

Managed Service for Apache Flink でのメトリクスおよびディメンション

Managed Service for Apache Flinkがデータソースを処理する場合、Managed Service for Apache Flinkは以下のメトリクスとディメンションをAmazon CloudWatchにレポートします。

Flink 2.2 メトリクスの変更

Flink 2.2 では、モニタリングとアラームに影響を与える可能性のあるメトリクスの変更が導入されています。アップグレードする前に、次の変更を確認してください。

fullRestarts メトリクスは削除されました。代わりに numRestarts を使用します。
uptime および downtimeメトリクスは廃止され、今後のリリースで削除されます。新しい状態固有のメトリクスに移行します。
Kinesis Data Streams コネクタ 6.0.0 の bytesRequestedPerFetchメトリクスが削除されました。

アプリケーションメトリクス

メトリクス	単位	説明	レベル	使用に関する注意事項
`backPressuredTimeMsPerSecond*`	ミリ秒	このタスクまたはオペレーターが1秒あたりにバックプレッシャーを受ける時間(ミリ秒単位)。	タスク、オペレータ、並列度	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これらのメトリックはアプリケーションのボトルネックを特定することに役立ちます。
`busyTimeMsPerSecond*`	ミリ秒	このタスクまたはオペレーターがビジー状態(アイドル状態でもバックプレッシャーでもない)の1秒あたりの時間(ミリ秒単位)。値を計算できなかった場合はNaNでもかまいません。	タスク、オペレータ、並列度	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これらのメトリックはアプリケーションのボトルネックを特定することに役立ちます。
`cpuUtilization`	パーセンテージ	タスクマネージャー全体の CPU 使用率。たとえば、タスクマネージャーが5つある場合、Apache Flink Managed Service for Apache Flinkは、レポート間隔ごとにメトリックサンプルを5つ公開します。	アプリケーション	このメトリックスを使用して、アプリケーションの CPU 使用率の最小値、平均値、最大値を監視できます。この`CPUUtilization`メトリックでは、コンテナ内で実行されている TaskManager JVM プロセスの CPU 使用率のみが考慮されます。
`containerCPUUtilization`	パーセンテージ	Flink アプリケーションクラスター内のタスクマネージャーコンテナー全体の CPU 使用率。たとえば、タスクマネージャーが 5 つある場合、それに応じて TaskManager コンテナが 5 つあり、Apache Flink 用マネージドサービスは 1 分のレポート間隔ごとに、このメトリックのサンプルを 2 5 個公開します。たとえば、タスクマネージャが5つある場合、それに対応してTaskManagerコンテナも5つあり、Managed Service for Apache Flinkは、1分間のレポート間隔ごとにこのメトリックのサンプルを2*5発行します。	アプリケーション	コンテナごとに次のように計算されます。コンテナが消費した合計 CPU 時間 (秒単位) 100/コンテナの CPU 上限 (CPU/秒)* この`CPUUtilization`メトリックでは、コンテナ内で実行されている TaskManager JVM プロセスの CPU 使用率のみが考慮されます。同じコンテナ内で JVM の外部で実行されているほかのコンポーネントもあります。この`containerCPUUtilization`メトリックにより、コンテナでの CPU の消耗とそれに起因する障害に関するすべてのプロセスを含めて、より包括的な全体像を把握できます。
`containerMemoryUtilization`	パーセンテージ	Flink アプリケーションクラスター内のタスクマネージャーコンテナー全体のメモリー使用率。たとえば、タスクマネージャーが 5 つある場合、それに応じて TaskManager コンテナが 5 つあり、Apache Flink 用マネージドサービスは 1 分のレポート間隔ごとに、このメトリックのサンプルを 2 5 個公開します。たとえば、タスクマネージャが5つある場合、それに対応してTaskManagerコンテナも5つあり、Managed Service for Apache Flinkは、1分間のレポート間隔ごとにこのメトリックのサンプルを2*5発行します。	アプリケーション	コンテナごとに次のように計算されます。コンテナのメモリ使用量 (バイト) 100/ポッドデプロイメント仕様に基づくコンテナのメモリ上限 (バイト単位)* `HeapMemoryUtilization`　と　`ManagedMemoryUtilzations`　メトリクスは、TaskManager JVMのヒープメモリ使用量やマネージド・メモリ（RocksDBステートバックエンドのようなネイティブ・プロセスのJVM外のメモリ使用量）のような特定のメモリ・メトリクスのみを考慮します。この`containerMemoryUtilization`メトリックには、ワーキングセットメモリを含めることで全体像を把握できるため、メモリの総消費量を追跡しやすくなります。メモリが使い果たされると、TaskManager ポッドの`Out of Memory Error`に反映されます。
`containerDiskUtilization`	パーセンテージ	Flink アプリケーションクラスター内のタスクマネージャーコンテナー全体のディスク使用率。たとえば、タスクマネージャーが 5 つある場合、それに応じて TaskManager コンテナが 5 つあり、Apache Flink 用マネージドサービスは 1 分のレポート間隔ごとに、このメトリックのサンプルを 2 5 個公開します。たとえば、タスクマネージャが5つある場合、それに対応してTaskManagerコンテナも5つあり、Managed Service for Apache Flinkは、1分間のレポート間隔ごとにこのメトリックのサンプルを2*5発行します。	アプリケーション	コンテナごとに次のように計算されます。ディスク使用量 (バイト) 100/コンテナのディスク上限 (バイト)* コンテナの場合、コンテナのルートボリュームが設定されているファイルシステムの使用率を表します。
`currentInputWatermark`	ミリ秒	このアプリケーション、オペレータ、タスク、スレッドが受け取った最後のウォーターマーク	アプリケーション、オペレータ、タスク、並列処理	このレコードは、入力が 2 つあるディメンションでのみ出力されます。これは最後に受信したウォーターマークの最小値です。
`currentOutputWatermark`	ミリ秒	このアプリケーション、オペレータ、タスク、スレッドが最後に出力したウォーターマーク	アプリケーション、オペレータ、タスク、並列処理
`downtime` [廃止]	ミリ秒	現在障害または回復中のジョブの場合は、その停止中に経過した時間です。	アプリケーション	この指標は、ジョブが失敗または回復している間に経過した時間を測定します。このメトリックは、実行中のジョブの場合は 0 を返し、完了したジョブの場合は-1を返します。このメトリクスが0または-1でない場合は、アプリケーションの Apache Flink ジョブが実行に失敗したことを示します。 Flink 2.2 では廃止されました。`failingTime` 代わりに、`restartingTime`、`cancellingTime`、および/またはを使用します。
`failingTime`	ミリ秒	アプリケーションが失敗状態で費やした時間 (ミリ秒単位）。このメトリクスを使用して、アプリケーションの障害をモニタリングし、アラートをトリガーします。	アプリケーション、フロー	Flink 2.2 から入手できます。廃止された`downtime`メトリクスの一部を置き換えます。
`heapMemoryUtilization`	パーセンテージ	タスクマネージャー全体のヒープメモリ使用率。たとえば、タスクマネージャーが5つある場合、Apache Flink Managed Service for Apache Flinkは、レポート間隔ごとにメトリックサンプルを5つ公開します。	アプリケーション	このメトリクスを使用して、アプリケーションのヒープメモリ使用率の最小値、平均値、最大値を監視できます。`HeapMemoryUtilization`はTaskManagerJVMのヒープメモリ使用量などの特定のメモリメトリックのみを考慮します。
`idleTimeMsPerSecond*`	ミリ秒	このタスクまたはオペレータが 1 秒あたりにアイドル状態 (処理するデータがない) の時間 (ミリ秒単位)。アイドル時間にはバックプレッシャーの時間は含まれないため、タスクにバックプレッシャーがかかっている場合、そのタスクはアイドルではありません。	タスク、オペレータ、並列度	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これらのメトリックはアプリケーションのボトルネックを特定することに役立ちます。
`lastCheckpointSize`	バイト	最後のチェックポイントの合計サイズ	アプリケーション	このメトリックを使用して、実行中のアプリケーションストレージの使用率を判断できます。このメトリックの値が増加している場合は、メモリリークやボトルネックなど、アプリケーションに問題がある可能性があります。
`lastCheckpointDuration`	ミリ秒	最後のチェックポイントを完了するまでにかかった時間	アプリケーション	このメトリックは、最新のチェックポイントを完了するまでにかかった時間を測定します。このメトリックの値が増加している場合は、メモリリークやボトルネックなど、アプリケーションに問題がある可能性があります。場合によっては、チェックポイントを無効にすることでこの問題を解決できます。
`managedMemoryUsed*`	バイト	現在使用中のメモリの量。	アプリケーション、オペレータ、タスク、並列処理	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これは Flink が Java ヒープ外で管理するメモリに関するものです。RocksDB のステートバックエンドに使用され、アプリケーションでも利用できます。
`managedMemoryTotal*`	バイト	メモリの合計量。	アプリケーション、オペレータ、タスク、並列処理	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これは Flink が Java ヒープ外で管理するメモリに関するものです。RocksDB のステートバックエンドに使用され、アプリケーションでも利用できます。この　`ManagedMemoryUtilzations`　メトリックは、Managed Memory (RocksDB State Backendのようなネイティブプロセスの JVM 外のメモリ使用量) のような特定のメモリーメトリクスのみを考慮します。
`managedMemoryUtilization*`	パーセンテージ	管理対象メモリー使用量/管理メモリー合計によって導出されます。	アプリケーション、オペレータ、タスク、並列処理	*Flink バージョン 1.13 を実行しているManaged Service for Apache Flinkアプリケーションでのみ使用できます。これは Flink が Java ヒープ外で管理するメモリに関するものです。RocksDB のステートバックエンドに使用され、アプリケーションでも利用できます。
`numberOfFailedCheckpoints`	カウント	チェックポイントが失敗した回数。	アプリケーション	このメトリックを使用して、アプリケーションの状態と進行状況を監視できます。スループットや権限の問題など、アプリケーションの問題が原因でチェックポイントが失敗することがあります。
`numRecordsIn*`	カウント	このアプリケーション、オペレータ、またはタスクが受信したレコードの総数。	アプリケーション、オペレータ、タスク、並列処理	*一定期間 (秒/分) にわたって SUM 統計を適用するには: 正しいレベルのメトリクスを選択してください。オペレーターのメトリクスを追跡している場合は、対応するオペレーターメトリクスを選択する必要があります。 Managed Service for Apache Flink では 1 分あたり 4 つのメトリックスナップショットが作成されるため、m1/4 というメトリック計算を使用する必要があります。ここで m1 は、一定期間(秒/分)にわたるSUM統計です。メトリックのレベルは、このメトリックがアプリケーション全体、特定のオペレータ、または特定のタスクが受信したレコードの総数を測定するかどうかを指定します。
`numRecordsInPerSecond*`	Count/Second	このアプリケーション、オペレータ、またはタスクが 1 秒あたりに受信したレコードの総数です。	アプリケーション、オペレータ、タスク、並列処理	*一定期間 (秒/分) にわたって SUM 統計を適用するには: 正しいレベルのメトリクスを選択してください。オペレーターのメトリクスを追跡している場合は、対応するオペレーターメトリクスを選択する必要があります。 Managed Service for Apache Flink では 1 分あたり 4 つのメトリックスナップショットが作成されるため、m1/4 というメトリック計算を使用する必要があります。ここで m1 は、一定期間 (秒/分) にわたる SUM 統計です。メトリックのレベルは、このメトリックがアプリケーション全体、特定のオペレータ、または特定のタスクが 1 秒あたりに受信したレコードの総数を測定するかどうかを指定します。
`numRecordsOut*`	カウント	このアプリケーション、オペレータ、またはタスクが送信したレコードの総数。	アプリケーション、オペレータ、タスク、並列処理	*一定期間 (秒/分) にわたって SUM 統計を適用するには: 正しいレベルのメトリクスを選択してください。オペレーターのメトリクスを追跡している場合は、対応するオペレーターメトリクスを選択する必要があります。 Managed Service for Apache Flink では 1 分あたり 4 つのメトリックスナップショットが作成されるため、m1/4 というメトリック計算を使用する必要があります。ここで m1 は、一定期間 (秒/分) にわたる SUM 統計です。メトリックのレベルは、このメトリックがアプリケーション全体、特定のオペレータ、または特定のタスクが発行したレコードの総数を測定するかどうかを指定します。
`numLateRecordsDropped*`	カウント	アプリケーション、オペレータ、タスク、並列処理		*一定期間 (秒/分) にわたって SUM 統計を適用するには: 正しいレベルのメトリクスを選択してください。オペレーターのメトリクスを追跡している場合は、対応するオペレーターメトリクスを選択する必要があります。 Managed Service for Apache Flink では 1 分あたり 4 つのメトリックスナップショットが作成されるため、m1/4 というメトリック計算を使用する必要があります。ここで m1 は、一定期間 (秒/分) にわたる SUM 統計です。このオペレータまたはタスクが遅れたために減少したレコードの数。
`numRecordsOutPerSecond*`	Count/Second	このアプリケーション、オペレータ、またはタスクが 1 秒あたりに送信したレコードの総数。	アプリケーション、オペレータ、タスク、並列処理	*一定期間 (秒/分) にわたって SUM 統計を適用するには: 正しいレベルのメトリクスを選択してください。オペレーターのメトリクスを追跡している場合は、対応するオペレーターメトリクスを選択する必要があります。 Managed Service for Apache Flink では 1 分あたり 4 つのメトリックスナップショットが作成されるため、m1/4 というメトリック計算を使用する必要があります。ここで m1 は、一定期間 (秒/分) にわたる SUM 統計です。メトリックのレベルは、このメトリックがアプリケーション全体、特定のオペレータ、または特定のタスクが 1 秒あたりに送信したレコードの総数を測定するかどうかを指定します。
`oldGenerationGCCount`	カウント	すべてのタスクマネージャーで発生した古いガベージコレクション操作の総数。	アプリケーション
`oldGenerationGCTime`	ミリ秒	古いガベージコレクション操作の実行にかかった合計時間。	アプリケーション	このメトリックを使用して、ガベージコレクションの合計時間、平均時間、最大時間を監視できます。
`threadsCount`	カウント	アプリケーションが使用したライブスレッドの総数。	アプリケーション	このメトリックは、アプリケーションコードが使用するスレッド数を測定します。これはアプリケーションの並列処理とは異なります。
`cancellingTime`	ミリ秒	アプリケーションがキャンセル状態で費やした時間 (ミリ秒単位）。このメトリクスを使用して、アプリケーションのキャンセルオペレーションをモニタリングします。	アプリケーション、フロー	Flink 2.2 から入手できます。廃止された`downtime`メトリクスの一部を置き換えます。
`restartingTime`	ミリ秒	アプリケーションが再起動状態で費やした時間 (ミリ秒単位）。このメトリクスを使用して、アプリケーションの再起動動作をモニタリングします。	アプリケーション、フロー	Flink 2.2 から入手できます。廃止された`downtime`メトリクスの一部を置き換えます。
`runningTime`	ミリ秒	アプリケーションが中断なく実行されていた時間 (ミリ秒単位）。廃止された`uptime`メトリクスを置き換えます。	アプリケーション、フロー	Flink 2.2 から入手できます。廃止された`uptime`メトリクスの直接の置き換えとしてを使用します。
`uptime` [廃止]	ミリ秒	ジョブが中断されずに実行された時間。	アプリケーション	この指標を使用して、ジョブが正常に実行されているかどうかを判断できます。このメトリックは、完了したジョブに対して -1 を返します。 Flink 2.2 では廃止されました。代わりに `runningTime` を使用します。
`jobmanagerFileDescriptorsMax`	カウント	JobManager で使用できるファイル記述子の最大数。	アプリケーション、フロー、ホスト	このメトリクスを使用して、ファイル記述子の容量をモニタリングします。
`jobmanagerFileDescriptorsOpen`	カウント	JobManager の開いているファイル記述子の現在の数。	アプリケーション、フロー、ホスト	このメトリクスを使用して、ファイル記述子の使用状況をモニタリングし、リソースの枯渇の可能性を検出します。
`taskmanagerFileDescriptorsMax`	カウント	各 TaskManager で使用できるファイル記述子の最大数。	アプリケーション、フロー、ホスト、tm_id	このメトリクスを使用して、ファイル記述子の容量をモニタリングします。
`taskmanagerFileDescriptorsOpen`	カウント	各 TaskManager の開いているファイル記述子の現在の数。	アプリケーション、フロー、ホスト、tm_id	このメトリクスを使用して、ファイル記述子の使用状況をモニタリングし、リソースの枯渇の可能性を検出します。
`KPUs*`	カウント	アプリケーションが使用した KPU の総数。	アプリケーション	*このメトリクスは、課金期間 (1 時間) ごとに 1 件のサンプルを受け取ります。時間の経過に伴う KPU の数を可視化するには、最低 1 時間の区切りで MAX または AVG を使用します。 KPU 数には `orchestration` KPU が含まれます。詳細については、「Managed Service for Apache Flink の料金」を参照してください

Flink 2.2 メトリクス移行ガイダンス

fullRestarts からの移行: fullRestartsメトリクスは Flink 2.2 で削除されました。代わりに numRestartsメトリクスを使用します。numRestarts メトリクスは同等の機能を提供し、しきい値の調整を必要とせずに CloudWatch アラームの直接置き換えとして使用できます。

アップタイムからの移行: uptimeメトリクスは Flink 2.2 では廃止され、今後のリリースで削除されます。代わりに runningTimeメトリクスを使用します。runningTime メトリクスは同等の機能を提供し、しきい値の調整を必要とせずに CloudWatch アラームの直接置き換えとして使用できます。

ダウンタイムからの移行: downtimeメトリクスは Flink 2.2 では廃止され、今後のリリースで削除されます。モニタリングする内容に応じて、次のメトリクスを 1 つ以上使用します。

restartingTime: アプリケーションの再起動にかかった時間をモニタリングする
cancellingTime: アプリケーションのキャンセルにかかった時間をモニタリングする
failingTime: 失敗状態で費やされた時間をモニタリングする

Kinesis Data Streams コネクタメトリクス

AWS は、以下に加えて Kinesis Data Streams のすべてのレコードを発行します。

メトリクス	単位	説明	レベル	使用に関する注意事項
`millisbehindLatest`	ミリ秒	コンシューマーがストリームの先頭から遅れているミリ秒数は、コンシューマーが現在時刻からどれだけ遅れているかを示します。	アプリケーション (Stream 用)、並列処理 (ShardId 用)	値ゼロはレコード処理が追いついて、現在処理する新しいレコードは存在しないことを示します。特定のシャードのメトリックは、ストリーム名とシャード ID で指定できます。値が -1 の場合は、サービスがメトリックの値をまだ報告していないことを示します。

注記

bytesRequestedPerFetch メトリクスは Flink AWS コネクタバージョン 6.0.0 (Flink 2.2 と互換性のある唯一のコネクタバージョン) で削除されました。Flink 2.2 で使用できる Kinesis Data Streams コネクタメトリクスはのみですmillisBehindLatest。

Amazon MSK コネクタメトリクス

AWS は、以下に加えて、Amazon MSK のすべてのレコードを発行します。

メトリクス	単位	説明	レベル	使用に関する注意事項
`currentoffsets`	該当なし	各パーティションのコンシューマーの現在の読み取りオフセット。特定のパーティションのメトリックは、トピック名とパーティション ID で指定できます。	アプリケーション (Topic用)、並列処理 (PartitionID 用)
`commitsFailed`	該当なし	オフセットのコミットとチェックポイントが有効になっている場合、Kafka へのオフセットコミットの失敗の合計数	アプリケーション、オペレータ、タスク、並列処理	オフセットを Kafka にコミットすることは、コンシューマの進行状況を公開するための手段にすぎないため、コミットの失敗は Flink のチェックポイントが設定されたパーティションオフセットの完全性に影響しません。
`commitsSucceeded`	該当なし	オフセットのコミットとチェックポイント設定が有効な場合、Kafka へのオフセットコミットが成功した合計数。	アプリケーション、オペレータ、タスク、並列処理
`committedoffsets`	該当なし	最後に正常にコミットされたオフセットは、パーティションごとに Kafka に送信されます。特定のパーティションのメトリックは、トピック名とパーティション ID で指定できます。	アプリケーション (Topic用)、並列処理 (PartitionID 用)
`records_lag_max`	カウント	このウィンドウ内の任意のパーティションのレコード数に関する最大ラグ	アプリケーション、オペレータ、タスク、並列処理
`bytes_consumed_rate`	バイト	トピック用に消費された1秒あたりの平均バイト数	アプリケーション、オペレータ、タスク、並列処理

Apache Zeppelin メトリクス

Studio ノートブックの場合、はアプリケーションレベルで次のメトリクスを AWS 出力します: KPUs、cpuUtilization、heapMemoryUtilization、oldGenerationGCTime、oldGenerationGCCount、および threadCount。さらに、アプリケーションレベルで次の表に示すようなメトリクスを出力します。

メトリクス	単位	説明	Prometheus 名
`zeppelinCpuUtilization`	パーセンテージ	Apache Zeppelin サーバーの CPU 使用率の全体的パーセンテージ。	`process_cpu_usage`
`zeppelinHeapMemoryUtilization`	パーセンテージ	Apache Zeppelin サーバーのヒープメモリ使用率の全体的パーセンテージ。	`jvm_memory_used_bytes`
`zeppelinThreadCount`	カウント	Apache Zeppelin サーバーが使用しているライブスレッドの総数。	`jvm_threads_live_threads`
`zeppelinWaitingJobs`	カウント	キューに入っていて 1 つのスレッドを待っている Apache Zeppelin ジョブの数。	`jetty_threads_jobs`
`zeppelinServerUptime`	秒	サーバーが稼働していた合計時間。	`process_uptime_seconds`

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

CloudWatch Logs Insights でログを解析する

CloudWatch メトリクスを表示する