異常偵測 - Amazon Managed Service for Prometheus

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

異常偵測

Amazon Managed Service for Prometheus 提供異常偵測功能,使用機器學習演算法自動識別指標資料中的異常模式。此功能可協助您主動偵測潛在問題、減少警示疲勞,並透過專注於真正的異常行為而非靜態閾值來改善監控效率。

Amazon Managed Service for Prometheus 中的異常偵測使用 Random Cut Forest (RCF) 演算法,可分析您的時間序列資料,以建立正常行為模式並識別與這些模式的偏差。演算法會適應季節性趨勢、正常處理遺失的資料,並為偵測到的異常提供可信度分數。

異常偵測的運作方式

Amazon Managed Service for Prometheus 異常偵測使用機器學習來識別指標資料中的異常模式,而無需手動閾值組態。系統會學習正常行為模式和季節性變化,減少誤報並啟用早期問題偵測。它會持續適應應用程式變更,使其適合動態雲端環境。

異常偵測會監控應用程式效能指標,例如回應時間和錯誤率、透過 CPU 和記憶體使用量追蹤基礎設施運作狀態、偵測不尋常的使用者行為、透過流量分析識別容量規劃需求,以及監控業務指標是否有非預期的變更。它最適合用於可預測模式、季節性變化或逐步成長趨勢。

Random Cut Forest (RCF) 演算法用於分析時間序列資料。RCF 會建立決策樹來分割資料空間,並識別遠離正常分佈的隔離點。演算法會從傳入資料中學習,以為每個指標建立正常行為的動態模型。

啟用時,它會分析歷史資料以建立基準模式和季節性趨勢,然後產生預期值的預測並識別偏差。演算法會產生四個金鑰輸出:

  • upper_band - 預期正常值的上限

  • lower_band - 預期正常值的下限

  • score - 數值異常分數,指出資料點的異常程度

  • value - 實際觀察到的指標值

開始使用異常偵測

若要開始使用異常偵測搭配 Prometheus 指標,您需要足夠的歷史資料,演算法才能學習正常模式。我們建議在啟用異常偵測以獲得最佳結果之前,至少擁有 14 天的一致指標資料。

您可以使用 PreviewAnomalyDetector API 預覽異常偵測如何與指標搭配使用。使用 針對您的歷史資料PreviewAnomalyDetector測試演算法,並在生產監控中實作演算法之前評估其有效性。如需詳細資訊,請參閱PreviewAnomalyDetector API

實作異常偵測時,請考慮下列最佳實務:

  • 從穩定的指標開始 – 從具有一致模式的指標開始,一開始就避免高度波動或稀疏的資料。

  • 使用彙總資料 – 將異常偵測套用至彙總指標 (例如平均值或總和),而不是原始的高基數資料,以提高效能和準確性。

  • 調校敏感度 – 根據您的特定使用案例和容錯率,相對於遺漏的異常情況,調整演算法參數。

  • 監控演算法效能 – 定期檢閱偵測到的異常情況,以確保演算法隨著系統演進持續提供寶貴的洞見。