異常偵測

Amazon Managed Service for Prometheus 提供異常偵測功能，使用機器學習演算法自動識別指標資料中的異常模式。此功能可協助您主動偵測潛在問題、減少警示疲勞，並透過專注於真正的異常行為而非靜態閾值來改善監控效率。

Amazon Managed Service for Prometheus 中的異常偵測使用 Random Cut Forest (RCF) 演算法，可分析您的時間序列資料，以建立正常行為模式並識別與這些模式的偏差。此演算法會適應季節性趨勢、正常處理遺失的資料，並為偵測到的異常提供可信度分數。

異常偵測的運作方式

Amazon Managed Service for Prometheus 異常偵測使用機器學習來識別指標資料中的異常模式，而無需手動閾值組態。系統會學習正常行為模式和季節性變化，減少誤報並啟用早期問題偵測。它會持續適應應用程式變更，使其適合動態雲端環境。

異常偵測會監控應用程式效能指標，例如回應時間和錯誤率、透過 CPU 和記憶體使用量追蹤基礎設施運作狀態、偵測不尋常的使用者行為、透過流量分析識別容量規劃需求，以及監控業務指標是否有非預期的變更。它最適合用於可預測模式、季節性變化或逐步成長趨勢。

Random Cut Forest (RCF) 演算法用於分析時間序列資料。RCF 會建立決策樹來分割資料空間，並識別遠離正常分佈的隔離點。演算法會從傳入資料中學習，為每個指標建立正常行為的動態模型。

啟用時，它會分析歷史資料以建立基準模式和季節性趨勢，然後產生預期值的預測並識別偏差。演算法會產生四個金鑰輸出：

upper_band - 預期正常值的上限
lower_band - 預期正常值的下限
score - 數值異常分數，指出資料點的異常程度
value - 實際觀察到的指標值

開始使用異常偵測

若要開始使用異常偵測搭配 Prometheus 指標，您需要足夠的歷史資料，演算法才能學習正常模式。我們建議在啟用異常偵測以獲得最佳結果之前，至少擁有 14 天的一致指標資料。

您可以使用 PreviewAnomalyDetector API 預覽異常偵測如何與您的指標搭配使用。PreviewAnomalyDetector 使用針對您的歷史資料測試演算法，並在生產監控中實作演算法之前評估其有效性。如需詳細資訊，請參閱PreviewAnomalyDetector API。

實作異常偵測時，請考慮下列最佳實務：

從穩定的指標開始 – 從具有一致模式的指標開始，一開始就避免高度波動或稀疏的資料。
使用彙總資料 – 將異常偵測套用至彙總指標（例如平均值或總和），而不是原始的高基數資料，以提高效能和準確性。
調校敏感度 – 根據您的特定使用案例和容錯率調整演算法參數，避免誤報與遺漏的異常。
監控演算法效能 – 定期審查偵測到的異常情況，以確保演算法隨著系統演進持續提供寶貴的洞見。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

查詢統計資料

PreviewAnomalyDetector