View a markdown version of this page

階段 5:回應和學習 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

階段 5:回應和學習

當您執行啟動時,複雜的事後程序可能會拖慢您的團隊。本章說明如何從事件中學習,而不將其轉換為官僚練習。

將事件學習整合至您現有的節奏。如果您的團隊已有定期會議,請使用十分鐘來討論最近的事件。專注於實際問題,例如:

  • Runbook 是否有幫助?

  • 提醒是否在正確的時間發生?

  • AWS 受管服務可以防止這種情況嗎?

專注於動作,而不是指責。在新創公司中,您並未建置完美的系統;您正在建置一個系統,每當發生問題時就會變得更好。

您可以使用您的票證系統來追蹤事件;不需要專用工具。建立簡單的範本,其中包含事件時間表、客戶影響、採取的復原步驟,以及經驗教訓。如果您主動使用,此攝影機會成為機構記憶體。在加入期間檢閱過去的事件,讓新工程師加快速度。在設計類似的系統時,在架構檢閱中參考它們。將它們拉進遊戲日,根據實際事件建立逼真的失敗案例。範本會擷取發生的情況,並定期使用 將其轉換為組織學習。

隨著新創公司成長,模式就會出現。某些元件可能會更頻繁地失敗,或者特定類型的變更可能會導致問題。使用這些模式來引導彈性投資。如果資料庫容錯移轉造成問題,請考慮改善您的多個可用區域設定。如果第三方服務中斷是常見的主題,請考慮改善斷路器。

目標不是要防止所有可能的失敗。這是不可能的,而且會拖慢您的速度。目標是快速學習、快速調整,並在快速成長的同時保持應用程式的可靠性。使用每個事件作為機會,讓您的系統更具彈性、您的團隊更有知識,以及您的客戶對您的服務更有信心。對於新創公司,速度和學習會打敗完美。建立輕量型程序,協助您從事件中學習,而不會拖慢創新速度。最佳彈性實務是您團隊實際使用的實務。