透過服務詳細資訊頁面檢視詳細的服務活動和操作狀態 - Amazon CloudWatch

透過服務詳細資訊頁面檢視詳細的服務活動和操作狀態

當您檢測應用程式時,Amazon CloudWatch Application Signals 會對應應用程式發現的所有服務。透過服務詳細資訊頁面,可檢視單一服務的服務、操作、相依項、Canary 及用戶端請求概覽。若要檢視服務詳細資訊頁面,請執行下列動作:

  • 開啟 CloudWatch 主控台

  • 在左側導覽窗格的 Application Signals 區段下選擇服務

  • 服務熱門服務或相依項資料表中選擇服務名稱。

排程造訪下,服務名稱下方會顯示帳戶標籤和 ID。

服務詳細資訊頁面分為以下索引標籤:

  • 概觀:可透過此索引標籤檢視單一服務的概觀,包括操作數量、相依項、合成和用戶端頁面。此索引標籤顯示您整個服務的關鍵指標、主要操作項目及相依項。這些指標包括該服務所有服務操作的延遲、故障和錯誤時間序列資料。

  • 服務操作:可透過此索引標籤檢視服務呼叫的操作清單,以及含關鍵指標 (用於衡量每項操作的運作狀態) 的互動式圖形。您可以在圖形中選取資料點,以取得與該資料點關聯的追蹤、日誌或指標的相關資訊。

  • 相依項:可透過此索引標籤檢視服務呼叫的相依項清單,以及該等相依項的指標清單。

  • Synthetics Canary:可透過此索引標籤檢視模擬使用者呼叫服務的 Synthetics Canary 清單,以及這些 Canary 如何運作的關鍵效能指標。

  • 用戶端頁面:可透過此索引標籤檢視呼叫您服務的用戶端頁面清單,以及衡量用戶端與應用程式互動品質的指標。

  • 相關指標:可透過此索引標籤關聯相關指標,例如服務的標準指標、執行時期指標和自訂指標、其操作或相依項。

檢視您的服務概觀

可透過服務概觀頁面,在一個位置檢視所有服務操作指標的高階摘要。檢查與您的應用程式互動的所有操作、相依項、用戶端頁面和 Synthetics Canary 的效能。此資訊可協助釐清應將精力集中於哪些領域,以識別問題、排除錯誤並尋找最佳化機會。

選擇服務詳細資訊中的連結可檢視與特定服務相關的資訊。例如,對於 Amazon EKS 中託管的服務,服務詳細資訊頁面會顯示叢集命名空間工作負載資訊。對於 Amazon ECS 或 Amazon EC2 中託管的服務,服務詳細資訊中會顯示環境值。

服務下,概觀索引標籤顯示下列項目的摘要:

  • 操作 – 可透過此索引標籤檢視服務操作的運作狀態。運作狀態由服務水準指標 (SLI) 決定,此指標作為服務水準目標 (SLO) 一部分定義。

  • 相依項 – 可透過此索引標籤檢視應用程式呼叫之服務的主要相依項 (依錯誤率列示),並檢視服務相依項的運作狀態。運作狀態由服務水準指標 (SLI) 決定,此指標作為服務水準目標 (SLO) 一部分定義。

  • Synthetics Canary – 可透過此標籤檢視模擬呼叫與服務關聯之端點或 API 的結果,以及失敗的 Canary 數量。

  • 用戶端頁面 – 可透過此索引標籤檢視用戶端呼叫的具有非同步 JavaScript 和 XML (AJAX) 錯誤的主要頁面。

下圖顯示服務概觀:

服務概觀小工具

概觀索引標籤亦會顯示所有服務中延遲最高的相依項圖表。使用 p99p90 p50 延遲指標快速評估哪些相依項導致了您的總服務延遲,具體如下:

服務操作延遲圖表

例如,上圖顯示對客戶服務相依項發出的請求中,有 99% 在約 4,950 毫秒內完成。其他相依項花費的時間更短。

顯示延遲最高的四項服務操作的圖表,呈現這些服務的請求量、可用性、故障率和錯誤率,如下圖所示:

服務操作量、可用性、故障率和錯誤率圖表

服務詳細資訊區段顯示服務的詳細資訊,包括帳戶 ID帳戶標籤

檢視服務操作

當您檢測應用程式時,Application Signals 會偵測到應用程式呼叫的所有服務操作。可透過服務操作索引標籤檢視包含服務操作的資料表,以及一組衡量所選操作效能的指標。這些指標包括 SLI 狀態、相依項數量、延遲、磁碟區、故障、錯誤及可用性,如下圖所示:

服務操作資料表

篩選「服務」資料表可更容易找到服務操作,方法是從篩選文字方塊中選擇一個或多個屬性。當您選擇每個屬性時,系統會引導您完成篩選條件,並在篩選文字方塊下方看到完整的篩選條件。可隨時選擇清除篩選條件以移除資料表篩選條件。

選擇操作的 SLI 狀態以顯示快顯視窗,其中包含任何狀態不良 SLI 的連結,以及可檢視所有操作之 SLO 的連結,如以下資料表中所示:

服務操作 SLI 狀態

服務操作資料表會列出 SLI 狀態、運作狀態良好或不好之 SLI 的數量,以及每個操作的 SLO 總數。

SLI 可用於監控延遲、可用性,以及衡量服務操作狀態的其他操作指標。SLO 可用於檢查服務和操作的效能及運作狀態。

若要建立 SLO,請執行下列動作:

  • 如果操作沒有 SLO,請在 SLI 狀態資料欄中選擇建立 SLO 按鈕。

  • 如果操作已有 SLO,請執行下列動作:

    • 點選操作名稱旁的單選按鈕。

    • 從資料表右上角的動作向下箭頭中選擇建立 SLO

如需詳細資訊,請參閱服務水準目標 (SLO)

相依性欄會顯示此操作所呼叫的相依性數目。選擇此數字可開啟已根據所選操作篩選的相依性索引標籤。

檢視服務操作指標、相關追蹤和應用程式日誌

Application Signals 會將服務操作指標與 AWS X-Ray 追蹤、CloudWatch Container Insights 和應用程式日誌相關聯。這些指標可用於排查操作狀態問題。若要以圖形形式檢視指標,請執行下列動作:

  1. 服務操作資料表中選取服務操作,以檢視資料表上方所選操作的一組圖形,其中包含磁碟區和可用性延遲故障和錯誤指標。

  2. 將滑鼠游標移至圖形中的某個點可檢視詳細資訊。

  3. 選取一個點可開啟診斷窗格,其中會顯示圖表中選取點的相關追蹤、指標及應用程式日誌。

下圖顯示將游標懸停於圖表中某個點後出現的工具提示,以及按一下該點後顯示的診斷窗格。工具提示包含故障和錯誤圖形中關聯資料點的相關資訊。窗格包含與所選點關聯的關聯追蹤主要貢獻因子應用程式日誌

故障和錯誤的相關追蹤

相關追蹤

查看相關追蹤以了解與追蹤相關的潛在問題。您可以檢查相關追蹤或其關聯的任何服務節點是否表現出類似行為。若要檢查相關追蹤,從關聯追蹤資料表中選擇追蹤 ID,開啟所選追蹤的 X-Ray 追蹤詳細資訊頁面。追蹤詳細資訊頁面包含與所選追蹤相關聯的服務節點對應,以及追蹤區段的時間軸。

主要貢獻因子

檢視主要貢獻因子,以尋找指標的主要輸入源。依不同元件對貢獻因子進行分組,以尋找群組中的相似性,並了解群組之間的追蹤行為差異。

主要貢獻因子索引標籤提供每個群組的通話量可用性平均延遲錯誤故障指標。下列範例影像顯示部署於 Amazon EKS 平台上之應用程式的各項指標的主要貢獻因子:

服務操作主要貢獻因子

主要貢獻因子包含下列指標:

  • 通話量:可透過通話量了解某個群組在每個時間間隔內的請求數量。

  • 可用性:可透過可用性檢視某個群組中未偵測到故障的時間佔比。

  • 平均延遲:可透過延遲檢查某個群組在一定時間間隔內執行請求的平均時間,該時間間隔取決於您正在調查的請求是在多久以前發出的。對於 15 天內提出的請求,將以 1 分鐘為間隔進行評估。對於 15 到 30 天前提出的請求,將以 5 分鐘為間隔進行評估。例如,如果您正在調查 15 天前導致故障的請求,則呼叫量指標等於每 5 分鐘間隔的請求數。

  • 錯誤:特定時間間隔內,每個群組出現的錯誤數。

  • 故障:特定時間間隔內,每個群組出現的故障數。

使用 Amazon EKS 或 Kubernetes 的主要貢獻因子

針對部署於 Amazon EKS 或 Kubernetes 上的應用程式,使用主要貢獻因子相關資訊,檢視依節點PodPodTemplateHash 分組的操作狀態指標。適用以下定義:

  • Pod 是共用儲存空間和資源的一或多個 Docker 容器群組。Pod 是可部署於 Kubernetes 平台上的最小單位。依 Pod 分組,確定錯誤是否與 Pod 特定限制相關。

  • 節點是執行 Pod 的伺服器。依節點分組,確定錯誤是否與節點特定限制相關。

  • Pod 範本雜湊用於尋找特定版本的部署。依 Pod 範本雜湊分組,確定錯誤是否與特定部署相關。

使用 Amazon EC2 的主要貢獻因子

針對部署於 Amazon EKS 上的應用程式,使用主要貢獻因子相關資訊,檢視依執行個體 ID 和 Auto Scaling 群組分組的操作狀態指標。適用以下定義:

  • 執行個體 ID 是您的服務執行之 Amazon EC2 執行個體的唯一識別符。依執行個體 ID 分組,確定錯誤是否與特定 Amazon EC2 執行個體相關。

  • Auto Scaling 群組是 Amazon EC2 執行個體的集合,用於擴展或縮減處理應用程式請求所需的資源。如果想要確定錯誤是否僅限於群組內的執行個體,請依 Auto Scaling 群組分組。

使用自訂平台的主要貢獻因子

針對使用自訂檢測部署的應用程式,使用主要貢獻因子相關資訊,檢視依主機名稱分組的操作狀態指標。適用以下定義:

  • 主機名稱用於識別連線至網路的裝置,例如端點或 Amazon EC2 執行個體。依主機名稱分組,確定您的錯誤是否與特定實體或虛擬裝置相關。

在 Log Insights 和 Container Insights 中檢視主要貢獻因子

Log Insights 中檢視和修改為主要貢獻因子產生指標的自動查詢。在 Container Insights 中依特定群組 (例如 Pod 或節點) 檢視基礎結構效能指標。可依資源消耗對叢集、節點或工作負載排序,並在最終使用者體驗受到影響之前快速識別異常或主動緩解風險。下圖展示如何選取這些選項:

主要貢獻因子資料表

Container Insights 中,可以檢視特定於主要貢獻因子分組的 Amazon EKS 或 Amazon ECS 容器指標。例如,如果依 EKS 容器的 Pod 分組來產生主要貢獻因子,Container Insights 將顯示針對 Pod 篩選的指標和統計資料。

Log Insights 中,可依下列步驟修改主要貢獻因子下產生指標的查詢:

  1. 選取在 Log Insights 中檢視。開啟的 Logs Insights 頁面包含自動產生的查詢,其中包括下列資訊:

    • 日誌叢集群組名稱。

    • 使用 CloudWatch 調查的操作。

    • 在圖表上互動之操作狀態指標的彙總。

    日誌結果會自動篩選,僅顯示您在服務圖表上選取資料點前最後五分鐘的資料。

  2. 若要編輯查詢,請用您的變更替換產生的文字。也可以使用查詢產生器協助產生新的查詢,或更新現有查詢。

應用程式記錄

應用程式日誌索引標籤中使用查詢來產生目前日誌群組、服務的記錄資訊,並插入時間戳記。日誌群組是一組日誌串流,您可以在設定應用程式時定義。

使用日誌群組來編排具有類似特性的日誌,包括下列內容:

  • 擷取來自特定組織、來源或功能的日誌。

  • 擷取由特定使用者存取的日誌。

  • 擷取特定時段的日誌。

這些日誌串流用於追蹤特定群組或時間範圍。也可以設定這些日誌群組的監控規則、警示和通知。如需有關日誌群組的詳細資訊,請參閱使用日誌群組和日誌串流

應用程式日誌查詢會傳回日誌、週期性文字模式和日誌群組的圖形視覺化資料。

若要執行查詢,請選取在 Logs Insights 中執行查詢,以執行自動產生的查詢或修改查詢。若要編輯查詢,請用您的變更替換自動產生的文字。也可以使用查詢產生器協助產生新的查詢,或更新現有查詢。

下圖顯示根據服務操作圖表中選取的點自動產生的查詢範例:

應用程式日誌資料表

在上圖中,CloudWatch 自動偵測到與您所選點關聯的日誌群組,並將其包含在產生的查詢中。

檢視服務相依性

選擇相依性索引標籤,即可顯示相依性資料表,以及所有服務操作或單個操作之相依性的一組指標。此資料表包含 Application Signals 發現的相依項清單,包括 SLI 狀態、延遲、呼叫量、故障率、錯誤率和可用性的指標。

在頁面頂端,從下拉式清單中選擇操作以檢視其相依項,或選擇全部查看所有操作的相依項。

篩選資料表,可讓您更容易找到要尋找的內容,方法是從篩選文字方塊中選擇一個或多個屬性。當您選擇每個屬性時,系統會引導您完成篩選條件,並在篩選文字方塊下方看到完整的篩選條件。可隨時選擇清除篩選條件以移除資料表篩選條件。選取資料表右上角的按相依性分組,可按服務和操作名稱對相依性分組。開啟分組時,使用相依性名稱旁邊的 + 圖示來展開或摺疊相依性群組。

相依性資料表

相依性資料欄會顯示相依性服務名稱,而遠端操作資料欄則顯示服務操作名稱。SLI 狀態欄位顯示運作狀態良好或不好的 SLI 數量,以及每個相依項的 SLI 總數。呼叫 AWS 服務時,目標欄會顯示 AWS 資源,例如 DynamoDB 資料表或 Amazon SNS 佇列。

若要選取相依性,請選取相依性資料表中某個相依性旁邊的選項。此時會顯示一組圖表,其中顯示呼叫量、可用性、故障和錯誤的詳細指標。將滑鼠移至圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖表中選取一個點可開啟診斷窗格,其中會顯示圖表中所選點的相關軌跡。從關聯追蹤資料表中選擇追蹤 ID,可開啟所選追蹤的 X-Ray 追蹤詳細資訊頁面。

相依性圖表和相關追蹤

檢視 Synthetics Canaries

選擇 Synthetics Canaries 索引標籤以顯示 Synthetics Canaries 資料表,以及資料表中每個 Canary 的一組指標。此表格包含成功百分比、平均持續時間、執行次數和失敗率的指標。只會顯示已針對 AWS X-Ray 追蹤啟用的 Canary。

透過合成 Canary 資料表中的篩選條件文字方塊,可尋找您感興趣的 Canary。所建立的每個篩選條件將顯示在篩選條件文字方塊下方。可隨時選擇清除篩選條件以移除資料表篩選條件。

Synthetics Canaries 資料表

選取 Canary 名稱旁的選項按鈕,可看到包含圖形詳細指標的一組索引標籤,包括成功百分比、錯誤和持續時間。將滑鼠移至圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖表中選取一個點可開啟診斷窗格,其中會顯示與所選點相關的 Canary 執行。選取 Canary 執行,然後選擇執行時間以查看所選 Canary 執行的成品,包括日誌、HTTP封存 (HAR) 檔案、螢幕擷取畫面和建議步驟,以協助排解問題。選擇進一步了解可開啟 Canary 執行旁的 CloudWatch Synthetics Canary 頁面。

Synthetics Canary 圖表和執行

檢視您的用戶端頁面

選擇用戶端頁面索引標籤,可顯示呼叫您服務的用戶端網頁清單。使用所選用戶端頁面的指標集,衡量用戶端在與服務或應用程式互動時獲得的體驗品質。這些指標包括頁面載入次數、網頁核心指標以及錯誤狀況。

若要在資料表中顯示用戶端頁面,必須設定 CloudWatch RUM Web 用戶端以進行 X-Ray 追蹤,並為用戶端頁面開啟 Application Signals 指標。選擇管理頁面,以管理為 Application Signals 指標啟用哪些頁面。

透過篩選條件文字方塊,在篩選條件文字方塊下方找到您感興趣的用戶端頁面或應用程式監視器。選擇清除篩選條件以移除資料表篩選條件。選取按用戶端分組,可按用戶端對用戶端頁面進行分組。分組後,選擇用戶端名稱旁邊的 + 圖示以展開該列,並查看該用戶端的所有頁面。

用戶端頁面資料表

若要選取用戶端頁面,請在用戶端頁面資料表中選取用戶端頁面旁邊的選項。您將看到一組顯示詳細指標的圖表。將滑鼠移至圖表中的某個點上,即可看到包含更多資訊的快顯視窗。在圖表中選取一個點可開啟診斷窗格,其中會顯示圖表中所選點的相關效能導覽事件。從導覽事件清單中選擇事件 ID,以開啟所選事件的 CloudWatch RUM 頁面檢視

CloudWatch RUM 用戶端頁面請求
注意

若要查看用戶端頁面中的 AJAX 錯誤,請使用 CloudWatch RUM Web 用戶端版本 1.15 或更新版本。

每個服務最多可顯示 100 個操作、Canary 和用戶端頁面,以及最多 250 個相依項。

檢視相關指標

透過相關指標索引標籤,可視覺化多個指標、識別相互關聯模式,以及判斷問題的根本原因。

指標資料表顯示三種類型的指標:

  • 標準指標 – Application Signals 會從它發現的服務中收集標準應用程式指標。如需詳細資訊,請參閱收集的標準應用程式指標

  • 執行時期指標 – Application Signals 使用 AWS Distro for OpenTelemetry SDK,從您的 Java 和 Python 應用程式自動收集與 OpenTelemetry 相容的指標。如需詳細資訊,請參閱執行時期指標

  • 自訂指標 – 透過 Application Signals,可以從應用程式產生自訂指標。如需詳細資訊,請參閱使用 Application Signals 自訂指標

可以從服務概觀、服務操作、相依項、Synthetics Canary 或 RUM 索引標籤存取相關指標索引標籤。

檢視相關指標
  • 左側導覽面板啟動時所有操作和相依項均未選取

  • 圖表一開始會顯示具有最高故障率之操作的故障指標

開始相互關聯分析之前,請確定在服務操作或相依項中可以看到資料點。若要分析相互關聯,請執行以下動作:

  1. 開啟服務操作或相依項頁面。

  2. 在任意圖形上選取一個資料點。

  3. 在右側面板中,選擇與其他指標建立關聯

  4. 在開啟的相關指標索引標籤上,您會看到:

    • 您在左側導覽中選取的操作或相依項

    • 所選指標已在瀏覽指標資料表中繪製為圖表

    • 選取資料點時的相關範圍

若要繪製多個指標的圖表,請從相關指標索引標籤的瀏覽檢視中選取一或多個指標。選擇圖表化指標可檢視所有圖表化指標。

若要篩選指標,請使用左側面板篩選條件來專注於特定操作或相依項,並使用資料表標題篩選條件列來依名稱、類型或其他屬性進行搜尋。這些篩選選項可協助更有效率地偵測模式和排解問題。

若要詳細分析相關指標,請在相關指標索引標籤中選取一個資料點。隨後,可以檢視:

  • 主要貢獻因子 – 透過執行 CloudWatch Logs Insights 查詢來分析指標。這些查詢會處理包含金鑰屬性的增強型指標格式 (EMF) 記錄,以進行下列內容的詳細分析:

    • 延遲度量值

    • 故障發生次數

    • 服務可用性指標

    下列指標不支援主要貢獻因子:

    • OTEL 指標

    • 伺服器端範圍指標

    可以檢視 RED 指標和用戶端範圍指標的主要貢獻因子。

  • 相互關聯範圍 –「相互關聯範圍」區段與「服務操作」索引標籤一致運作。為協助您識別相關的追蹤和指標,相互關聯機制以如下方式運作:

    • 比較指標名稱與範圍屬性

    • 識別所選期間內的比對模式

    • 顯示相關的追蹤資訊

    若要有效地將指標和範圍結合起來進行分析,需要了解不同的指標類型如何相互關聯。以下是主要限制:

    • OTEL 指標與範圍無關聯,因為它們使用獨立的命名系統

    • 若要將伺服器或用戶端範圍指標與範圍建立關聯:

    • 將服務維度欄位納入組態中

    • 如果沒有此服務維度,就無法將這些指標與範圍建立關聯

  • 日誌應用程式 – 如需日誌應用程式相關資訊,請參閱應用程式日誌