OPS08-BP04 建立工作負載指標基準
建立工作負載指標的基準有助於了解工作負載運作狀態和效能。使用基準,您可以識別效能不足和效能過剩的應用程式和元件。工作負載基準可讓您具備在問題變成事件之前加以緩解的能力。基準是開發活動模式以及當指標偏離預期值時實作異常偵測的基礎。
預期成果:
-
您有工作負載在正常條件之下的指標基準層級。
-
您可以判斷您的工作負載是否正常運作。
常見的反模式:
-
在部署新的功能之後,請求延遲降低。基準不是針對傳入已處理請求和整體延遲的複合指標所建立的。您無法判斷變更導致改善或導致缺陷。
-
在使用者活動中發生突然的峰值,但是您未建立指標基準。活動峰值會慢慢導致應用程式中的記憶體洩漏。最終讓您的工作負載離線。
建立此最佳實務的優勢:
-
您使用關鍵元件和應用程式的指標來了解工作負載活動的正常模式。
-
您可以判斷您的工作負載、它的應用程式以及元件是否運作正常或者需要介入。
未建立此最佳實務時的風險暴露等級:中
實作指引
使用歷史資料來建立您的工作負載中應用程式和元件的工作負載指標基準。在指標檢閱會議和疑難排解中利用指標基準。定期檢閱工作負載效能並且隨著架構演進調整基準。
客戶範例
在 AnyCompany Retail,基準是針對所有元件和應用程式而建立的。使用歷史資料,AnyCompany Retail 透過兩個月的指標期間開發了他們的工作負載指標基準。他們每兩個月就會重新評估基準,並且根據實際資料進行調整。
實作步驟
-
以您的工作負載指標為起點往回推想,使用歷史資料為關鍵元件和應用程式建立指標基準。限制每個元件或應用程式的指標數量,並且避免監控疲勞。
-
您可以使用 Amazon CloudWatch Metrics Insights 大規模查詢指標,並且識別趨勢和模式。
-
Amazon CloudWatch 異常偵測會使用機器學習演算法來識別指標的行為模式、判斷基準,以及呈現異常。
-
Amazon DevOps Guru 使用機器學習提供偵測您的工作負載操作問題的能力。
-
具有企業支援的客戶可以向他們的技術客戶經理請求建置監控策略研討會
。這個研討會將會協助您為您的工作負載建置可觀測性策略。
-
-
建立機制來定期檢閱工作負載指標基準,特別是在重要業務活動之前。至少一季一次,使用歷史資料評估您的工作負載指標基準。在您的指標檢閱會議中使用基準。
實作計劃的工作量:低。擁有已建立的工作負載指標,建立基準可能需要您收集足夠的資料來識別正常行為模式。
資源
相關的最佳實務:
-
OPS08-BP02 定義工作負載指標 - 在決定基準之前必須先建立工作負載指標。
-
OPS08-BP03 收集和分析工作負載指標 - 在建立指標基準之前必須先收集和分析工作負載指標。
-
OPS08-BP05 了解工作負載的預期活動模式 - 這個最佳實務建置在基準的基礎上以開發用量趨勢。
-
OPS08-BP06 在工作負載結果有風險時發出提醒 - 需要有指標基準才能識別臨界值和開發警示。
-
OPS08-BP07 在偵測到工作負載異常時發出提醒 - 異常偵測需要建立指標基準。
相關文件:
相關影片:
相關範例:
相關服務: