Deteksi anomali - Amazon Managed Service for Prometheus

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Deteksi anomali

Layanan Terkelola Amazon untuk Prometheus menyediakan kemampuan deteksi anomali yang menggunakan algoritme pembelajaran mesin untuk secara otomatis mengidentifikasi pola yang tidak biasa dalam data metrik Anda. Fitur ini membantu Anda secara proaktif mendeteksi potensi masalah, mengurangi kelelahan waspada, dan meningkatkan efektivitas pemantauan Anda dengan berfokus pada perilaku yang benar-benar anomali daripada ambang batas statis.

Deteksi anomali di Amazon Managed Service untuk Prometheus menggunakan algoritma Random Cut Forest (RCF), yang menganalisis data deret waktu Anda untuk menetapkan pola perilaku normal dan mengidentifikasi penyimpangan dari pola tersebut. Algoritma beradaptasi dengan tren musiman, menangani data yang hilang dengan anggun, dan memberikan skor kepercayaan untuk anomali yang terdeteksi.

Cara deteksi anomali bekerja

Layanan Terkelola Amazon untuk deteksi anomali Prometheus menggunakan pembelajaran mesin untuk mengidentifikasi pola yang tidak biasa dalam data metrik tanpa konfigurasi ambang batas manual. Sistem mempelajari pola perilaku normal dan variasi musiman, mengurangi positif palsu dan memungkinkan deteksi masalah dini. Ini terus beradaptasi dengan perubahan aplikasi, sehingga cocok untuk lingkungan cloud dinamis.

Deteksi anomali memantau metrik kinerja aplikasi seperti waktu respons dan tingkat kesalahan, melacak kesehatan infrastruktur melalui penggunaan CPU dan memori, mendeteksi perilaku pengguna yang tidak biasa, mengidentifikasi kebutuhan perencanaan kapasitas melalui analisis lalu lintas, dan memantau metrik bisnis untuk perubahan yang tidak terduga. Ini bekerja paling baik dengan pola yang dapat diprediksi, variasi musiman, atau tren pertumbuhan bertahap.

Algoritma Random Cut Forest (RCF) digunakan untuk menganalisis data deret waktu. RCF menciptakan pohon keputusan yang mempartisi ruang data dan mengidentifikasi titik-titik terisolasi yang jauh dari distribusi normal. Algoritma belajar dari data yang masuk untuk membangun model dinamis perilaku normal untuk setiap metrik.

Ketika diaktifkan, ia menganalisis data historis untuk menetapkan pola dasar dan tren musiman, kemudian menghasilkan prediksi untuk nilai yang diharapkan dan mengidentifikasi penyimpangan. Algoritma menghasilkan empat output utama:

  • upper_band - Batas atas nilai normal yang diharapkan

  • lower_band - Batas bawah nilai normal yang diharapkan

  • skor - Skor anomali numerik yang menunjukkan betapa tidak biasa titik data

  • nilai - Nilai metrik yang diamati aktual

Memulai dengan deteksi anomali

Untuk mulai menggunakan deteksi anomali dengan metrik Prometheus Anda, Anda memerlukan data historis yang cukup agar algoritme mempelajari pola normal. Kami merekomendasikan memiliki setidaknya 14 hari data metrik yang konsisten sebelum mengaktifkan deteksi anomali untuk hasil yang optimal.

Anda dapat melihat pratinjau bagaimana deteksi anomali akan bekerja dengan metrik Anda menggunakan API. PreviewAnomalyDetector Gunakan PreviewAnomalyDetector untuk menguji algoritme terhadap data historis Anda dan evaluasi efektivitasnya sebelum menerapkannya dalam pemantauan produksi. Untuk informasi selengkapnya, lihat PreviewAnomalyDetector API.

Saat menerapkan deteksi anomali, pertimbangkan praktik terbaik ini:

  • Mulailah dengan metrik stabil — Mulailah dengan metrik yang memiliki pola konsisten dan hindari data yang sangat fluktuatif atau jarang pada awalnya.

  • Gunakan data agregat — Terapkan deteksi anomali ke metrik agregat (seperti rata-rata atau jumlah) daripada data mentah dengan kardinalitas tinggi untuk kinerja dan akurasi yang lebih baik.

  • Sensitivitas Tune — Sesuaikan parameter algoritme berdasarkan kasus penggunaan spesifik Anda dan toleransi untuk positif palsu versus anomali yang terlewat.

  • Pantau kinerja algoritme — Tinjau anomali yang terdeteksi secara teratur untuk memastikan algoritme terus memberikan wawasan berharga saat sistem Anda berkembang.