Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Metrik dan dimensi dalam Layanan Terkelola untuk Apache Flink
Saat Layanan Terkelola untuk Apache Flink memproses sumber data, Managed Service for Apache Flink melaporkan metrik dan dimensi berikut ke Amazon. CloudWatch
Perubahan metrik Flink 2.2
Flink 2.2 memperkenalkan perubahan metrik yang dapat memengaruhi pemantauan dan alarm Anda. Tinjau perubahan berikut sebelum memutakhirkan:
fullRestartsMetrik telah dihapus. GunakannumRestartssebagai gantinya.downtimeMetrikuptimedan tidak digunakan lagi dan akan dihapus di rilis mendatang. Migrasi ke metrik khusus negara bagian yang baru.bytesRequestedPerFetchMetrik untuk konektor Kinesis Data Streams 6.0.0 telah dihapus.
Metrik aplikasi
| Metrik | Unit | Deskripsi | Tingkat | Catatan Penggunaan |
|---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Milidetik | Waktu (dalam milidetik) tugas atau operator ini kembali ditekan per detik. | Tugas, Operator, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Metrik ini dapat berguna dalam mengidentifikasi kemacetan dalam suatu aplikasi. |
busyTimeMsPerSecond* |
Milidetik | Waktu (dalam milidetik) tugas atau operator ini sibuk (tidak menganggur atau kembali ditekan) per detik. Bisa NaN, jika nilainya tidak bisa dihitung. | Tugas, Operator, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Metrik ini dapat berguna dalam mengidentifikasi kemacetan dalam suatu aplikasi. |
cpuUtilization |
Persentase | Keseluruhan persentase penggunaan CPU di seluruh manajer tugas. Misalnya, jika ada lima pengelola tugas, Managed Service for Apache Flink menerbitkan lima sampel metrik ini per interval pelaporan. | Aplikasi | Anda dapat menggunakan metrik ini untuk memantau penggunaan CPU minimum, rata-rata, dan maksimum dalam aplikasi Anda. CPUUtilizationMetrik hanya memperhitungkan penggunaan CPU dari proses TaskManager JVM yang berjalan di dalam wadah. |
containerCPUUtilization |
Persentase | Persentase keseluruhan pemanfaatan CPU di seluruh wadah task manager di cluster aplikasi Flink. Misalnya, jika ada lima pengelola tugas, maka ada lima TaskManager kontainer dan Layanan Terkelola untuk Apache Flink menerbitkan 2 * lima sampel metrik ini per interval pelaporan 1 menit. | Aplikasi | Itu dihitung per kontainer sebagai: Total waktu CPU (dalam detik) yang dikonsumsi oleh kontainer* 100/ Batas CPU kontainer ( CPUsdalam/detik)
|
containerMemoryUtilization |
Persentase | Persentase keseluruhan pemanfaatan memori di seluruh wadah pengelola tugas di cluster aplikasi Flink. Misalnya, jika ada lima pengelola tugas, maka ada lima TaskManager kontainer dan Layanan Terkelola untuk Apache Flink menerbitkan 2 * lima sampel metrik ini per interval pelaporan 1 menit. | Aplikasi | Itu dihitung per kontainer sebagai: Penggunaan memori kontainer (byte) * 100/ Batas memori kontainer sesuai spesifikasi penerapan pod (dalam byte) Metrik |
containerDiskUtilization |
Persentase | Persentase keseluruhan pemanfaatan disk di seluruh wadah pengelola tugas di cluster aplikasi Flink. Misalnya, jika ada lima pengelola tugas, maka ada lima TaskManager kontainer dan Layanan Terkelola untuk Apache Flink menerbitkan 2 * lima sampel metrik ini per interval pelaporan 1 menit. | Aplikasi | Itu dihitung per kontainer sebagai: Penggunaan disk dalam byte* 100/Batas Disk untuk wadah dalam byte Untuk kontainer, ini mewakili pemanfaatan sistem file tempat volume root wadah diatur. |
currentInputWatermark |
Milidetik | Tanda air terakhir yang application/operator/task/thread diterima | Aplikasi, Operator, Tugas, Paralelisme | Catatan ini hanya dipancarkan untuk dimensi dengan dua input. Ini adalah nilai minimum dari watermark yang terakhir diterima. |
currentOutputWatermark |
Milidetik | Tanda air terakhir yang application/operator/task/thread dipancarkan | Aplikasi, Operator, Tugas, Paralelisme | |
downtime[USANG] |
Milidetik | Untuk pekerjaan yang saat ini dalam suatu failing/recovering situasi, waktu berlalu selama pemadaman ini. | Aplikasi | Metrik ini mengukur waktu berlalu saat tugas gagal atau memulihkan. Metrik ini menampilkan 0 untuk tugas yang berjalan dan -1 untuk tugas yang selesai. Jika metrik ini bukan 0 atau -1, ini menunjukkan tugas Apache Flink untuk aplikasi gagal dijalankan. Usang di Flink 2.2. Gunakan |
failingTime |
Milidetik | Waktu (dalam milidetik) yang dihabiskan aplikasi dalam keadaan gagal. Gunakan metrik ini untuk memantau kegagalan aplikasi dan memicu peringatan. | Aplikasi, Aliran | Tersedia dari Flink 2.2. Menggantikan bagian dari metrik usangdowntime. |
heapMemoryUtilization |
Persentase | Keseluruhan pemanfaatan memori tumpukan di seluruh manajer tugas. Misalnya, jika ada lima pengelola tugas, Managed Service for Apache Flink menerbitkan lima sampel metrik ini per interval pelaporan. | Aplikasi | Anda dapat menggunakan metrik ini untuk memantau penggunaan memori tumpukan minimum, rata-rata, dan maksimum dalam aplikasi Anda. HeapMemoryUtilizationSatu-satunya akun untuk metrik memori tertentu seperti Heap Memory Usage of TaskManager JVM. |
idleTimeMsPerSecond* |
Milidetik | Waktu (dalam milidetik) tugas atau operator ini menganggur (tidak memiliki data untuk diproses) per detik. Waktu idle tidak termasuk waktu bertekanan kembali, jadi jika tugas kembali ditekan, itu tidak menganggur. | Tugas, Operator, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Metrik ini dapat berguna dalam mengidentifikasi kemacetan dalam suatu aplikasi. |
lastCheckpointSize |
Byte | Total ukuran titik pemeriksaan terakhir | Aplikasi | Anda dapat menggunakan metrik ini untuk menentukan penggunaan penyimpanan aplikasi yang berjalan. Jika nilai metrik ini meningkat, ini mungkin menunjukkan adanya masalah pada aplikasi Anda, seperti kebocoran memori atau hambatan. |
lastCheckpointDuration |
Milidetik | Waktu yang diperlukan untuk menyelesaikan titik pemeriksaan terakhir | Aplikasi | Metrik ini mengukur waktu yang diperlukan untuk menyelesaikan titik pemeriksaan terbaru. Jika nilai metrik ini meningkat, ini mungkin menunjukkan adanya masalah pada aplikasi Anda, seperti kebocoran memori atau hambatan. Dalam beberapa kasus, Anda dapat memecahkan masalah ini dengan menonaktifkan checkpointing. |
managedMemoryUsed* |
Byte | Jumlah memori terkelola yang saat ini digunakan. | Aplikasi, Operator, Tugas, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Ini berkaitan dengan memori yang dikelola oleh Flink di luar tumpukan Java. Ini digunakan untuk backend status RocksDB, dan juga tersedia untuk aplikasi. |
managedMemoryTotal* |
Byte | Jumlah total memori yang dikelola. | Aplikasi, Operator, Tugas, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Ini berkaitan dengan memori yang dikelola oleh Flink di luar tumpukan Java. Ini digunakan untuk backend status RocksDB, dan juga tersedia untuk aplikasi. |
managedMemoryUtilization* |
Persentase | Diturunkan oleh managedMemoryUsed/managedMemoryTotal | Aplikasi, Operator, Tugas, Paralelisme | *Tersedia untuk Managed Service untuk aplikasi Apache Flink yang menjalankan Flink versi 1.13 saja. Ini berkaitan dengan memori yang dikelola oleh Flink di luar tumpukan Java. Ini digunakan untuk backend status RocksDB, dan juga tersedia untuk aplikasi. |
numberOfFailedCheckpoints |
Hitungan | Jumlah kegagalan checkpointing. | Aplikasi | Anda dapat menggunakan metrik ini untuk memantau kesehatan dan kemajuan aplikasi. Titik pemeriksaan mungkin gagal karena masalah aplikasi, seperti throughput atau masalah izin. |
numRecordsIn* |
Hitungan | Jumlah total catatan yang diterima aplikasi, operator, atau tugas. | Aplikasi, Operator, Tugas, Paralelisme | *Untuk menerapkan statistik SUM selama periode waktu (detik/menit):
Tingkat metrik menentukan apakah metrik ini mengukur jumlah total catatan yang diterima seluruh aplikasi, operator tertentu, atau tugas tertentu. |
numRecordsInPerSecond* |
Hitungan/Detik | Jumlah total catatan yang diterima aplikasi, operator, atau tugas per detik. | Aplikasi, Operator, Tugas, Paralelisme | *Untuk menerapkan statistik SUM selama periode waktu (detik/menit):
Tingkat metrik menentukan apakah metrik ini mengukur jumlah total catatan yang diterima seluruh aplikasi, operator tertentu, atau tugas tertentu per detik. |
numRecordsOut* |
Hitungan | Jumlah total catatan yang dipancarkan aplikasi, operator, atau tugas. | Aplikasi, Operator, Tugas, Paralelisme |
*Untuk menerapkan statistik SUM selama periode waktu (detik/menit):
Tingkat metrik menentukan apakah metrik ini mengukur jumlah total catatan yang dipancarkan seluruh aplikasi, operator tertentu, atau tugas tertentu. |
numLateRecordsDropped* |
Hitungan | Aplikasi, Operator, Tugas, Paralelisme | *Untuk menerapkan statistik SUM selama periode waktu (detik/menit):
Jumlah catatan yang dibuang operator atau tugas karena datang terlambat. |
|
numRecordsOutPerSecond* |
Hitungan/Detik | Jumlah total catatan yang dipancarkan aplikasi, operator, atau tugas per detik. | Aplikasi, Operator, Tugas, Paralelisme |
*Untuk menerapkan statistik SUM selama periode waktu (detik/menit):
Tingkat metrik menentukan apakah metrik ini mengukur jumlah total catatan yang dipancarkan seluruh aplikasi, operator tertentu, atau tugas tertentu per detik. |
oldGenerationGCCount |
Hitungan | Jumlah total operasi pengumpulan sampah lama yang terjadi di semua manajer tugas. | Aplikasi | |
oldGenerationGCTime |
Milidetik | Total waktu yang digunakan untuk melakukan operasi pengumpulan sampah lama. | Aplikasi | Anda dapat menggunakan metrik ini untuk memantau jumlah, rata-rata, dan waktu pengumpulan sampah maksimum. |
threadsCount |
Hitungan | Jumlah total utas langsung yang digunakan aplikasi. | Aplikasi | Metrik ini mengukur jumlah utas yang digunakan kode aplikasi. Ini tidak sama dengan paralelisme aplikasi. |
cancellingTime |
Milidetik | Waktu (dalam milidetik) yang telah dihabiskan aplikasi dalam keadaan pembatalan. Gunakan metrik ini untuk memantau operasi pembatalan aplikasi. | Aplikasi, Aliran | Tersedia dari Flink 2.2. Menggantikan bagian dari metrik usangdowntime. |
restartingTime |
Milidetik | Waktu (dalam milidetik) yang telah dihabiskan aplikasi dalam keadaan restart. Gunakan metrik ini untuk memantau perilaku restart aplikasi. | Aplikasi, Aliran | Tersedia dari Flink 2.2. Menggantikan bagian dari metrik usangdowntime. |
runningTime |
Milidetik | Waktu (dalam milidetik) aplikasi telah berjalan tanpa gangguan. Menggantikan metrik usanguptime. |
Aplikasi, Aliran | Tersedia dari Flink 2.2. Gunakan sebagai pengganti langsung untuk metrik usanguptime. |
uptime[USANG] |
Milidetik | Waktu ketika tugas berjalan tanpa gangguan. | Aplikasi | Anda dapat menggunakan metrik ini untuk menentukan apakah tugas berhasil berjalan. Metrik ini menampilkan -1 untuk tugas yang selesai. Usang di Flink 2.2. Gunakan |
jobmanagerFileDescriptorsMax |
Hitungan | Jumlah maksimum deskriptor file yang tersedia untuk file. JobManager | Aplikasi, Aliran, Tuan Rumah | Gunakan metrik ini untuk memantau kapasitas deskriptor file. |
jobmanagerFileDescriptorsOpen |
Hitungan | Jumlah deskriptor file terbuka saat ini untuk file. JobManager | Aplikasi, Aliran, Tuan Rumah | Gunakan metrik ini untuk memantau penggunaan deskriptor file dan mendeteksi potensi kehabisan sumber daya. |
taskmanagerFileDescriptorsMax |
Hitungan | Jumlah maksimum deskriptor file yang tersedia untuk masing-masing TaskManager. | Aplikasi, Aliran, Host, tm_id | Gunakan metrik ini untuk memantau kapasitas deskriptor file. |
taskmanagerFileDescriptorsOpen |
Hitungan | Jumlah deskriptor file terbuka saat ini untuk masing-masing TaskManager. | Aplikasi, Aliran, Host, tm_id | Gunakan metrik ini untuk memantau penggunaan deskriptor file dan mendeteksi potensi kehabisan sumber daya. |
KPUs* |
Hitungan | Jumlah total yang KPUs digunakan oleh aplikasi. | Aplikasi | *Metrik ini menerima satu sampel per periode penagihan (satu jam). Untuk memvisualisasikan jumlah dari KPUs waktu ke waktu, gunakan MAX atau AVG selama setidaknya satu (1) jam. Jumlah KPU termasuk |
Panduan migrasi metrik Flink 2.2
Migrasi dari FullRestarts: fullRestarts Metrik telah dihapus di Flink 2.2. Gunakan numRestarts metrik sebagai gantinya. numRestartsMetrik menyediakan fungsionalitas yang setara dan dapat digunakan sebagai pengganti langsung dalam CloudWatch alarm tanpa memerlukan penyesuaian ambang batas.
Migrasi dari waktu aktif: uptime Metrik tidak digunakan lagi di Flink 2.2 dan akan dihapus di rilis mendatang. Gunakan runningTime metrik sebagai gantinya. runningTimeMetrik menyediakan fungsionalitas yang setara dan dapat digunakan sebagai pengganti langsung dalam CloudWatch alarm tanpa memerlukan penyesuaian ambang batas.
Migrasi dari waktu henti: downtime Metrik tidak digunakan lagi di Flink 2.2 dan akan dihapus di rilis mendatang. Bergantung pada apa yang ingin Anda pantau, gunakan satu atau beberapa metrik berikut:
restartingTime: Pantau waktu yang dihabiskan untuk memulai ulang aplikasicancellingTime: Memantau waktu yang dihabiskan untuk membatalkan aplikasifailingTime: Pantau waktu yang dihabiskan dalam keadaan gagal
Metrik konektor Kinesis Data Streams
AWS memancarkan semua catatan untuk Kinesis Data Streams selain yang berikut:
| Metrik | Unit | Deskripsi | Tingkat | Catatan Penggunaan |
|---|---|---|---|---|
millisbehindLatest |
Milidetik | Jumlah milidetik konsumen berada di belakang bagian depan aliran, menunjukkan seberapa jauh di belakang waktu konsumen saat ini. | Aplikasi (untuk Stream), Paralelisme (untuk) ShardId |
|
catatan
bytesRequestedPerFetchMetrik telah dihapus di AWS konektor Flink versi 6.0.0 (satu-satunya versi konektor yang kompatibel dengan Flink 2.2). Satu-satunya metrik konektor Kinesis Data Streams yang tersedia di Flink 2.2 adalah. millisBehindLatest
Metrik konektor MSK Amazon
AWS memancarkan semua catatan untuk Amazon MSK selain yang berikut:
| Metrik | Unit | Deskripsi | Tingkat | Catatan Penggunaan |
|---|---|---|---|---|
currentoffsets |
N/A | Offset baca konsumen saat ini, untuk setiap partisi. Metrik partisi tertentu dapat ditentukan berdasarkan nama topik dan id partisi. | Aplikasi (untuk Topik), Paralelisme (untuk) PartitionId | |
commitsFailed |
N/A | Jumlah total kegagalan commit offset ke Kafka, jika commit offset dan checkpointing diaktifkan. | Aplikasi, Operator, Tugas, Paralelisme | Melakukan commit offset kembali ke Kafka hanyalah sarana untuk mengungkapkan kemajuan konsumen, jadi kegagalan commit tidak memengaruhi integritas offset partisi titik pemeriksaan Flink. |
commitsSucceeded |
N/A | Jumlah total keberhasilan commit offset ke Kafka, jika commit offset dan checkpointing diaktifkan. | Aplikasi, Operator, Tugas, Paralelisme | |
committedoffsets |
N/A | Offset komit yang berhasil terakhir ke Kafka, untuk setiap partisi. Metrik partisi tertentu dapat ditentukan berdasarkan nama topik dan id partisi. | Aplikasi (untuk Topik), Paralelisme (untuk) PartitionId | |
records_lag_max |
Hitungan | Keterlambatan maksimum dalam hal jumlah catatan untuk setiap partisi di jendela ini | Aplikasi, Operator, Tugas, Paralelisme | |
bytes_consumed_rate |
Byte | Jumlah rata-rata byte yang digunakan per detik untuk topik | Aplikasi, Operator, Tugas, Paralelisme |
Metrik Apache Zeppelin
Untuk notebook Studio, AWS memancarkan metrik berikut di tingkat aplikasi:KPUs,,,, cpuUtilization heapMemoryUtilizationoldGenerationGCTime, oldGenerationGCCount dan. threadCount Selain itu, ini memancarkan metrik yang ditunjukkan dalam tabel berikut, juga pada tingkat aplikasi.
| Metrik | Unit | Deskripsi | Nama Prometheus |
|---|---|---|---|
zeppelinCpuUtilization |
Persentase | Persentase keseluruhan pemanfaatan CPU di server Apache Zeppelin. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Persentase | Persentase keseluruhan pemanfaatan memori tumpukan untuk server Apache Zeppelin. | jvm_memory_used_bytes |
zeppelinThreadCount |
Hitungan | Jumlah total utas langsung yang digunakan oleh server Apache Zeppelin. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Hitungan | Jumlah antrian tugas Apache Zeppelin yang menunggu utas. | jetty_threads_jobs |
zeppelinServerUptime |
Detik | Total waktu server aktif dan berjalan. | process_uptime_seconds |