故障診斷 應用程式問題 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

故障診斷 應用程式問題

透過 Application Signals,可針對應用程式中罕見的延遲飆升現象進行疑難排解。啟用 Transaction Search 並設定擷取 100% 範圍的端部取樣率後,就可以完全了解應用程式問題。下列案例說明如何搭配使用 Application Signals 與交易範圍,以監控服務並識別服務品質問題。

疑難排解方案範例

此方案聚焦於一個寵物診所應用程式,其中包含多項微服務,並且會呼叫第三方支付 API。這些呼叫時有出現速度變慢的情況,因而影響了收益。

Jane 開啟 CloudWatch Application Signals 主控台,發現負責客戶註冊的客服應用程式運作正常,且未違反任何 SLO。

CloudWatch Application Signals 主控台

她開啟服務進行調查,想要釐清罕見故障的發生模式,注意到註冊 API 出現間歇性的 p99 延遲飆升現象。

間歇性延遲飆升

Jane 在延遲圖表中選擇了一個資料點,以檢視關聯的範圍。她依客戶 ID 將範圍分組,以檢視受到延遲飆升影響的所有客戶。

受到延遲飆升影響的客戶

Jane 選取其中一個具有錯誤狀態的相關追蹤,此時開啟了所選追蹤的追蹤詳細資訊頁面。她捲動至區段時間軸部分以遵循呼叫路徑,發現對付款閘道的呼叫持續失敗,導致客戶無法完成註冊。

呼叫付款失敗