View a markdown version of this page

主動事件預防 - AWS DevOps 代理程式

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主動事件預防

AWS DevOps 代理程式會分析整個事件調查的模式,以提供目標性建議,以持續改善您的營運狀態並防止未來的事件。透過 Operator Web 應用程式中的改善頁面存取主動事件預防。

主動事件預防的運作方式

AWS DevOps 代理程式會評估最近的事件調查,以識別持續的改進,以防止未來的事件,並加快平均偵測時間 (MTTD)。代理程式會分析多個事件,以識別可能在未來阻止整個事件類別的建議,專注於最具影響力的建議,以確保這些建議可採取動作。

根據預設,代理程式會每週自動執行評估。如果您想要僅隨需執行評估,可以暫停排程。手動評估隨時可用,這在最近的調查需要快速解決建議的改進時很有用。

客服人員會識別四個類別的改進,如改進頁面上的建議分類圖表所示:

  • 觀測性 – 增強監控、提醒、記錄和系統可見性的建議,以更快、更準確地偵測問題。

  • 基礎設施 – 最佳化資源組態、容量調校和架構彈性的建議。

  • 控管 – 強化部署程序、管道改進、測試實務和操作控制的建議。

  • 程式碼最佳化 – 改善應用程式程式碼品質、錯誤處理和程式碼彈性的建議。

此分類可協助您了解最需要改善營運的位置,並可讓您根據團隊的重點領域排定建議優先順序。

優勢

  • 防止重複發生事件 – 有系統地解決根本原因,而不是重複回應相同類型的問題

  • 減少營運管道 – 讓團隊免於重複的消防,專注於創新和策略改進

  • 改善系統彈性 – 根據實際事件資料強化您的基礎設施、可觀測性和部署程序

  • 從歷史模式學習 - 利用過去事件的洞察,進行具有最大影響的目標改善

客服人員摘要

Web 應用程式改善頁面中的客服人員摘要提供最近事件上次評估結果的說明。摘要說明分析的事件調查數量、哪些事件與過去的事件類似,以及使用新資訊建立或更新了哪些建議。

摘要可協助您快速了解客服人員在最近評估期間發現的情況,並重點介紹可能對您的操作狀態產生最大影響的最值得注意的建議。

控制評估

您可以控制何時 AWS DevOps 代理程式評估事件並產生建議:

  • 手動執行評估 – 按一下改善頁面中的立即執行按鈕以立即開始評估。當最近的調查需要快速解決建議的改進時,這很有用。

  • 停止作用中的評估 – 按一下改善頁面中的停止評估按鈕,以停止目前正在進行的評估。

管理建議

AWS DevOps 代理程式在改善頁面中提供建議,您可以在其中檢閱和管理這些建議:

  • 檢視建議詳細資訊 – 按一下建議以開啟建議詳細資訊頁面,您可以在其中查看有關建議改進的詳細資訊,包括通知建議的事件、預期影響和後續步驟。如需程式碼變更的建議,您也可以檢視可交給編碼代理程式實作的代理程式就緒規格。

  • 保留 – 按一下「保留」,在待處理項目中保留建議以進行追蹤。這可讓您監控計劃實作和追蹤其進度的改善項目。

  • 捨棄 – 按一下「捨棄」以從待處理項目中移除建議。當您捨棄建議時,您可以提供自然語言說明,說明它為何不符合您的需求。客服人員會從此意見回饋中學習,並用它來通知未來的建議,確保隨著時間的推移,它們更符合您的操作優先事項和需求。

  • 已實作 – 按一下「已實作」,將建議標記為已完成。這可協助您追蹤已套用哪些改善項目,並允許代理程式測量其建議隨時間經過的有效性。

  • 自動移除 – 如果實作建議不會阻止任何新事件,則大約 6 週後可能會移除未標記為保留或實作的建議。這可確保改善頁面專注於最相關的營運挑戰改善。

  • 建議更新 – 當發現較新的事件遭到建議阻止時,現有的建議會更新。更新可能會變更建議的優先順序,或根據新洞見精簡建議。

建議優先順序

AWS DevOps 代理程式會自動依優先順序排列您的建議,協助您先專注於最具影響力的改善。排名會考慮您團隊的特定內容、操作模式,以及每個建議解決的問題嚴重性。

優先順序的運作方式

每個評估週期,代理程式會使用下列組合來排名您的作用中建議 (建議或保留狀態的建議):

  • 採用 AI 技術的排名 - 代理程式會根據類別相關性、事件嚴重性和操作影響,評估最佳建議的相對重要性。

  • 確定性評分 – 對於較大的待處理項目,代理程式會根據事件頻率、嚴重性模式和延遲來套用優先順序分數,以確保排名最高的項目之外的一致排序。

排名清單會出現在改善頁面中,其中包含數值排名位置 (1 為最高優先順序)。已捨棄或實作的建議不會排名。

自訂優先順序

您可以透過聊天界面傳達團隊的優先順序,來影響客服人員排名建議的方式:

  • 設定類別偏好設定 – 告知客服人員哪個建議類別對您的團隊最重要 (例如,「我們將可觀測性改善優先於基礎設施變更」)。代理程式會儲存這些偏好設定,並將其用於未來的排名評估。

  • 提供內容 – 分享即將進行的專案、合規要求或團隊重點領域的相關資訊。代理程式在決定應優先考慮哪些建議時納入此內容。

若要更新您的偏好設定,請使用聊天介面並以自然語言描述團隊的優先順序。代理程式將確認其已理解,並將在下一個評估週期中套用您的偏好設定。

排名穩定性

在以下情況下,建議排名可能會在評估週期之間變更:

  • 已新增優先順序高於現有建議的新建議

  • 您的團隊聲明的偏好設定變更

  • 新的事件資料可強化或弱化建議案例

無論您的排名變更為何,您已標示為「保留」在待處理項目中保留其位置的建議,以確保您的工作流程不會中斷。

客服人員就緒規格

對於涉及程式碼或組態變更的建議, AWS DevOps 代理程式可以產生適用於代理程式的規格。此規格提供結構化文件,可直接交給編碼代理程式進行實作。

規格包括:

  • 問題陳述式 – 問題及其根本原因的摘要

  • 解決方案摘要 – 建議方法的高階描述

  • 目標儲存庫 – 需要變更的特定儲存庫

  • 程式碼變更 – 詳細說明需要變更的內容和原因,以及特定的檔案路徑和實作考量

  • 測試需求 – 需要測試哪些案例

  • 實作計畫 – 實作變更的分階段方法

代理程式就緒規格透過為編碼代理程式提供進行生產就緒變更所需的內容來加速實作,而不需要工程師進行廣泛的back-and-forth操作。

實作建議

若要將主動事件預防建議的價值最大化,請考慮採取下列做法來採取行動:

  • 使用代理程式就緒規格 – 如需程式碼變更的建議,請使用產生的規格,透過將其交給編碼代理程式,或使用它作為手動實作的詳細指南來加速實作。

  • 將建議新增至票證待處理項目 – 將建議複製到您團隊的票證系統或專案管理工具,以確保與其他工程工作一起排定優先順序。

  • 根據影響排定建議優先順序 – 首先專注於處理最常見或嚴重事件類型,或影響關鍵系統的建議。

  • 追蹤實作進度 – 監控已實作的建議,並透過觀察類似事件是否隨著時間減少來衡量其有效性。

  • 與開發團隊協調 – 與擁有受影響系統的適當團隊分享建議,確保他們擁有實作改善所需的內容和資源。