調查您環境中的操作問題 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

調查您環境中的操作問題

建立調查

從 AWS 主控台頁面建立調查

您可以從多個 AWS 主控台開始調查,包括 (但不限於) CloudWatch 警示頁面、CloudWatch 指標頁面和 Lambda 監控頁面。

從 AWS 主控台頁面開始調查
  1. 帳戶層級中,選取您要調查的指標或警示圖形。

  2. 如果頁面頂端有調查按鈕,請選擇該按鈕,然後選擇開始新的調查

    否則,請選擇指標 Depicts the appearance of the vertical ellipsis icon on the console 的垂直省略符號功能表圖示,然後選擇調查開始新的調查

  3. 調查窗格中,在新調查標題中輸入調查的名稱,然後選擇性地輸入所選指標或警示的備註。

  4. 大約影響開始時間下CloudWatch 調查建議根據所選遙測進行調查的時間戳記。若要變更調查的時間戳記,請更新日期和時間。

  5. 然後選擇開始調查

    調查開始。CloudWatch 調查會掃描您的遙測資料,以尋找可能與此情況相關聯的資料。

  6. 若要將調查資料移至較大的窗格,請選擇在完整頁面中開啟

  7. 如需繼續調查時可採取之步驟的詳細說明,請參閱 檢視並繼續開放調查

從 Amazon Q 聊天建立調查

您可以在 CloudWatch 調查聊天中詢問部署中的問題。問題可能像是「為什麼我的 Lambda 函數今天很慢?」

當您這麼做時,CloudWatch 調查可能會詢問後續問題,並針對問題執行運作狀態檢查。運作狀態檢查後,聊天將提示您是否要開始調查。

如需詳細資訊和更多範例問題,請參閱與 Amazon Q 聊天 AWS。

如需在啟動調查後繼續調查時可採取之步驟的詳細說明,請參閱 檢視並繼續開放調查

從 CloudWatch 警示動作建立調查

當您建立 CloudWatch 警示時,您可以指定 讓它在進入 ALARM 狀態時自動開始調查。您可以同時對指標警示和複合警示執行此操作。如需建立警示的詳細資訊,請參閱 針對指標的警示建立複合警示

檢視並繼續開放調查

使用本節中的步驟來檢視並繼續和現有的調查

檢視並繼續調查
  1. 如果您尚未在調查頁面上,請執行下列動作:

    1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

    2. 在左側導覽窗格中,選擇 AI OperationsInvestigations

    3. 選擇調查的名稱。

  2. 饋送區段會顯示已新增至調查結果的項目,包括最初選擇用來開始調查的指標或警示。

    右側的窗格包含索引標籤。選擇建議索引標籤。

  3. 建議索引標籤會顯示 CloudWatch 調查發現可能與調查相關的其他遙測觀察。它也可能包含假設,這是 CloudWatch 調查發現這種情況的可能原因或根本原因。

    CloudWatch 調查會以自然語言撰寫觀察和假設。

    您有多種選擇:

    • 對於每個建議,您可以選擇接受捨棄

      當您選擇接受時,建議會新增至摘要區段,而 CloudWatch 調查會使用此資訊來引導進一步的掃描和建議。

      如果您選擇捨棄,建議會移至捨棄索引標籤。

    • 對於每個觀察類型建議,您可以選擇在建議索引標籤中展開圖形,或在 CloudWatch 主控台中開啟它以查看更多詳細資訊。

    • 有些觀察可能是 CloudWatch Logs Insights 查詢的結果,CloudWatch 調查會在調查過程中執行。當觀察是 CloudWatch Logs Insights 查詢結果時,查詢本身會顯示為觀察的一部分。您可以編輯查詢並重新執行。若要這樣做,請 An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. 根據結果選擇垂直省略符號功能表圖示,然後選擇在 Logs Insights 中開啟。如需詳細資訊,請參閱使用 CloudWatch Logs Insights 分析日誌資料

    • 如果您知道 AWS 服務中的遙測可能適用於此調查,您可以前往該服務的主控台,並將遙測新增至調查。例如,若要將 Lambda 指標新增至調查,您可以執行下列動作:

      1. 開啟 Lambda 主控台。

      2. 監控區段中,尋找 指標。

      3. 開啟指標 An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. 的垂直省略符號內容選單,選擇調查新增至調查 接著,在調查窗格中選取調查的名稱。

    • 當您在建議索引標籤中檢視假設時,您可以選擇顯示推理,以顯示 CloudWatch 調查用來產生假設的資料。

    • 您可以選擇捨棄索引標籤,並檢視先前已捨棄的建議。若要將其中一個問題清單新增至問題清單,請選擇還原至問題清單

    • 若要將備註新增至問題清單,請在摘要窗格中選擇新增備註。然後輸入您的備註,然後選擇新增

  4. 當您將假設新增至摘要區域時,可能會顯示顯示建議的動作。若是如此,選擇此選項會顯示您可以採取的可能動作,假設該假設對問題是正確的。可能的動作包括下列各項:

    • 文件建議是 文件的連結 AWS ,可協助您了解正在處理的問題,以及如何解決問題。若要檢視建議的文件,請選擇其檢閱連結

    • Runbook 建議是利用 Systems Manager Automation 中預先定義的 Runbook 的建議。每個 Runbook 都會定義在 AWS 資源上執行任務的數個步驟。

      重要

      執行 Automation Runbook 需支付費用。不過,CloudWatch 調查可讓您預覽建議的 Runbook 採取的動作,讓您有機會更好地評估是否執行 Runbook。如需自動化定價的詳細資訊,請參閱AWS Systems Manager 自動化定價

      如需繼續執行 Runbook 動作的相關資訊,請參閱 ,檢閱和執行 CloudWatch 調查的建議 Runbook 修補然後再繼續此程序中的下列步驟。

  5. 若要結束調查,請選擇結束調查,然後選擇性地新增最終備註。然後選擇 Save (儲存)。

    調查狀態會變更為已封存。您可以開啟調查頁面並選擇重新啟動調查,以重新啟動封存的調查

    我們建議您不要讓調查無限期開啟,因為與調查相關的警示狀態轉換只要開啟,就會繼續新增至調查。

注意

在某些時間點,您可能會看到已完成分析。完成調查。 會顯示在摘要區域上方。如果您接著將更多遙測新增至問題清單,此訊息會變更,CloudWatch 調查會根據您新增至問題清單的新資料,再次開始掃描您的遙測。

檢閱和執行 CloudWatch 調查的建議 Runbook 修補

當您將假設新增至作用中調查的饋送區域時,CloudWatch 調查可能會顯示顯示建議的動作。其中一個建議的動作可能是檢視包含資訊的文件,以協助您手動修復問題。

另一個建議可能是使用 Automation Runbook 來嘗試自動解決問題。自動化是 Systems Manager 中的功能,另一個 AWS 服務。自動化 Runbook 會定義一系列步驟或動作,以在您選取的資源上執行。每個 Runbook 旨在解決特定問題。Runbook 可以解決各種操作需求:建立、修復、重新設定、安裝、故障診斷、修復、複製等。如需自動化的詳細資訊,請參閱 與 AWS Systems Manager 自動化整合

開始之前

在調查中使用 Automation Runbook 之前,請注意下列重要考量:

  • 選擇執行 Runbook 會產生費用。如需相關資訊,請參閱 AWS Systems Manager 定價

  • 根本原因和 Runbook 建議是由自動化推理和生成式人工智慧服務提供支援。

    重要

    您必須負責執行 Runbook 步驟所產生的動作,以及選擇執行手冊執行期間輸入的參數值。您可能需要編輯建議的 Runbook,以確保 Runbook 如預期般執行。如需詳細資訊,請參閱AWS 負責的 AI 政策

  • 根據 Runbook,您可能需要輸入 Runbook 輸入參數的值,才能執行。

  • Runbook 會使用指派給運算子的 IAM 許可來執行。如有必要,請使用不同的 IAM 許可登入以執行 Runbook。除了所採取動作的許可之外,您還需要額外的 Systems Manager 許可才能執行 Runbook 步驟。如需詳細資訊,請參閱AWS Systems Manager 《 使用者指南》中的設定自動化

檢閱和執行建議的 CloudWatch 調查 Runbook 動作
  1. 若要檢視建議 Runbook 的相關資訊,請選擇檢閱,以取得如何執行 Runbook 步驟的相關資訊。

    在調查詳細資訊頁面上,選擇建議

  2. 建議窗格中,根據系統對調查中問題的分析,檢閱假設清單。

    對於每個假設,您可以從下列選項中選擇:

    • 顯示推理 – 檢視系統產生假設原因的詳細資訊。

    • 檢視動作 – 檢視問題的建議動作。並非所有假設都會包含建議的動作。

    • 接受 – 接受假設並將其新增至調查的摘要區段。

      注意

      接受假設不會自動執行相關聯的 Runbook 解決方案。您可以在接受假設之前檢視建議的 Runbook,但您必須接受假設才能執行 Runbook。

    • 捨棄 – 拒絕假設,不要再與之互動。

  3. 選擇檢視動作後,在建議的動作窗格中,檢閱您可以採取以解決問題的建議動作清單。建議的動作可以包含下列一或多個項目:

    • AWS 知識文章 – 提供您可以採取以手動解決問題之步驟的相關資訊,以及詳細資訊的連結。

    • AWS 文件 – 提供與問題相關的使用者文件主題連結。

    • AWS擁有的 Runbook – 列出一或多個由 管理的 Automation Runbook AWS ,您可以執行以嘗試解決問題。

    • 您擁有的 Runbook – 列出您或您帳戶或組織中其他人建立的一或多個自訂 Automation Runbook,您可以執行以嘗試解決問題。

      注意

      系統會自動產生此 Runbook 清單,方法是評估自訂 Runbook 中的關鍵字,然後將它們與所調查問題相關的術語進行比較。

      關鍵字比對越多,表示特定自訂 Runbook 會顯示在您清單擁有的 Runbook 中。

  4. 檢閱假設之後,您可以進一步檢查特定建議的動作,並選擇進一步了解來閱讀相關文件。您也可以選擇檢閱詳細資訊,以檢查 AWS 和您擁有的建議 Runbook。

  5. 選擇檢閱 Runbook 的詳細資訊時,請執行下列動作:

    1. 對於 Runbook 描述,請檢閱內容,其中提供 Runbook 可以採取的動作概觀,以修復正在調查的問題。選擇檢視步驟以視覺化 Runbook 的工作流程,並深入了解個別步驟的詳細資訊。

    2. 對於輸入參數,請為 Runbook 所需的任何參數指定值。這些參數因 Runbook 而異。

    3. 對於執行預覽,請仔細檢閱資訊。這些資訊會說明,如果選擇執行執行手冊,範圍和影響會如何。

      執行預覽內容提供下列資訊:

      • Runbook 操作將在其中發生多少帳戶和區域。

      • 要採取的動作類型,以及每種類型的數量。

        動作類型如下:

        • Mutating:執行手冊步驟會透過建立、修改或刪除資源的動作來變更目標。

        • Non-Mutating:執行手冊步驟會擷取有關資源的資料,但不會變更資料。此類別通常包含 DescribeListGet 和類似的唯讀 API 動作。

        • Undetermined:不確定的步驟會叫用由另一個協同運作服務執行的執行 AWS Lambda AWS Step Functions,例如 或 Run Command。 AWS Systems Manager未確定的步驟也可能呼叫第三方 API 或執行 Python 或 PowerShell 指令碼。Systems Manager Automation 無法偵測協同運作程序或第三方 API 執行的結果,因此無法進行評估。必須手動檢閱這些步驟的結果,才能判斷其影響。

        如需有關支援的動作及其影響類型的資訊,請參閱AWS Systems Manager 《 使用者指南》中的 Runbook 動作的修復影響類型

    4. 請仔細檢閱預覽資訊,再決定是否繼續。

      此時可以執行以下其中一個動作:

      • 停止且不要執行執行手冊。

      • 在執行 Runbook 之前變更輸入參數。

      • 使用您已選取的選項執行 Runbook。

    重要

    選擇執行 Runbook 會產生費用。如需相關資訊,請參閱 AWS Systems Manager 定價

  6. 如果您想要執行 Runbook,請選擇執行

    如果您已接受假設,則執行會執行。

    如果您尚未接受假設,則在執行之前,會有一個對話方塊提示您接受該假設。

在選擇執行 Runbook 之後,該動作會新增至調查的摘要窗格。從調查中,您可以監控調查結果中指標中的新資料,以查看 Runbook 動作是否正在修正問題。