View a markdown version of this page

擴展整個組織的混沌工程 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

擴展整個組織的混沌工程

隨著您的組織採用混沌工程,標準化和實作將會帶來挑戰。在成熟的早期階段,不同的團隊可能會使用前面幾節所述的混沌工程程序的不同工具和變化。同時,有些團隊可能不會優先考慮或採用混沌工程,即使其可能帶來好處。下列各節提供如何克服這些挑戰的指引。

整體而言,您的混沌工程方法應設計為在集中式領導和分散參與之間取得平衡。此平衡有助於確保混沌工程整合到開發程序中,並在整個組織中共用學習。

建立混沌工程實務

將混沌工程實務標準化可以加速採用。跨團隊分享來自實驗的學習,可以擴大混沌工程投資的回報。

在混沌工程實務中建立集中式卓越中心,或組合一組主題專家。作為小型的集中式函數,此團隊可以跨軟體開發、基礎設施、安全和業務團隊運作,並維護這些團隊使用的標準。為了簡化, 卓越中心稱為集中式實務團隊,而套用混沌工程的群組在本指南的其餘部分稱為實務團隊

集中式實務團隊的角色

集中式實務團隊負責在整個組織中開發和實作混沌工程實務。他們與實務團隊緊密合作,引導他們設計和執行實驗,並確保實驗對業務很有價值。集中式實務團隊也為開發、基礎設施和安全團隊提供指導和支援,以協助他們將混沌工程整合到他們的開發程序中。

集中式混沌工程實務團隊的主要責任包括下列項目:

  • 啟用 – 集中式混沌工程函式做為主持人,透過遊戲日和研討會介紹混沌工程實務。他們在混沌工程過程中引導團隊,包括選擇失敗案例、定義假設,以及產生要與更廣泛的組織共用的報告。集中式實務團隊應擁有訓練資料,並努力提升實務團隊使用混沌工程的技能。

  • 諮詢 – 集中式實務團隊也可以擔任諮詢角色,以監督實務團隊執行的實驗。他們的經驗和知識可以確保實驗為企業提供價值,並以安全的方式執行。同樣地,團隊可以監督實驗的執行和總結,以引導剛接觸混沌工程的人員。

  • 行銷和價值追蹤 – 傳達混沌工程的商業價值是此類計劃成功的關鍵。參與混沌工程實驗的每個團隊都應從整個企業的實驗收集資料,並展示組織對混沌工程投資的價值。這包括量化和慶祝每個實驗期間避免的事件數量、實驗失敗時可能發生的停機時間,以及生產中發生故障案例時對業務的整體影響。透過從跨團隊收集和集中此類資料,並將資料提供給整個組織,集中式實務團隊可以追蹤和影響在整個組織中採用混沌工程所產生的價值。

  • 標準 – 集中式實務團隊應擁有和維護執行混沌實驗的程序、規劃和報告實驗的範本,以及用於執行實驗的工具。

    中央團隊應擁有和管理實驗規劃範本、實驗報告範本、程序文件和啟用資料。最佳實務文件和啟用材料為團隊提供指引,以練習他們可以用來限制實驗影響的護欄、何時在生產中進行實驗,以及如何隨著時間發展他們使用混沌工程。如需範本和輸出的範例,請參閱附錄

    集中式實務團隊也應該擁有執行實驗的程序,包括通訊和呈報,以及在實驗之前或期間與組織中其他團隊通訊的時間和方式。程序也應概述何時需要護欄。

    集中式實務團隊也應該選取並擁有執行混沌實驗的核心工具 (例如,工具,例如 AWS FIS)。選擇和實作補充工具,例如負載產生工具,應該保留給練習團隊來決定。練習團隊應該能夠調整整體程序和工具,以符合其需求。

練習團隊的角色

集中式團隊負責推動整體混沌工程策略,而實務團隊則參與程序並擁有實驗的開發和執行。這有助於確保實驗與每個特定產品或服務相關,並且學習是可行的,並且可以套用以提高產品的可靠性和彈性。集中式實務團隊充當組織混沌工程標準和程序的指導者和擁有者。不過,為了防止集中式團隊成為瓶頸,個別練習團隊將需要從中央實務中學習,為自己執行混沌實驗。

建立實務社群

除了建立集中式團隊之外,我們建議您建立由對混沌工程有興趣的從業人員組成的非正式社群。此社群提供跨實務團隊和更廣泛的組織共用知識、最佳實務和體驗的平台。

實務社群可由集中式混沌工程實務團隊運作,但組織內的任何人都可以成為社群的成員。集中式團隊可以利用實務社群廣播更新和來源學習,以及從使用集中式團隊所管理標準和程序的實務團隊收集意見回饋。社群將充當回饋迴圈,通知集中式團隊有關實務團隊中混沌工程實務的有效性。然後,集中式實務團隊可以調整其文件和支援成品,以最佳支援產品團隊。

將混沌工程納入您的營運恢復能力

混沌實驗是您的企業為了防止生產中發生的事件所做的投資。需要確定企業可以實現此投資最大收益的位置。組織可以與集中式混沌工程實務團隊合作,更新其標準,並判斷哪些產品夠重要,需要混沌實驗。

系統開發程序

混沌工程和混沌實驗應作為應用程式生命週期的一部分重複執行。與團隊定期執行災難復原測試的方式類似,他們應該在一年中持續且定期地執行混沌實驗和遊戲日。此方法可改善組織預測、觀察和回應事件的方式。