継続的な改善 - AWS 規範ガイダンス

継続的な改善

耐障害性は継続的なプロセスです。システムの運用環境は、ライフサイクルを通じて変化していきます。システムの耐障害性を維持するには、フレームワークを定期的な運用レビューとアーキテクチャレビューに統合する必要があります。最初は特定できなかった新しい障害モードや、新しい軽減策またはこれまで導入できるとは考えられなかったような軽減策があるかもしれません。耐障害性分析は反復的なプロセスであり、1 回限りの演習ではありません。

カオスエンジニアリングゲームデーなどのプロセスで軽減戦略を経験的にテストし、期待どおりに機能することを検証する必要があります。厳格なテストメカニズムがないと、必要なときに軽減策が期待どおりに機能するかどうかの確信が持てません。耐障害性分析中に、障害モードが既に特定の軽減策によって処理されていると判断する場合がありますが、こうした仮定についてもテストを行うことが重要です。耐障害性分析フレームワークを使用して作成された既存の軽減策と新規軽減策の両方をテストする必要があります。

また、チームレトロスペクティブを通じて分析をどの程度適切に実行したかを評価する必要もあります。分析中に自分が何に取り組んでいたか、全員が理解していましたか? 耐障害性分析で検出された障害モードの数は、チームが想定していた数と一致していましたか? 検出したすべての障害モードに対する軽減策を特定できますか? チームにとってこのプロセスは役に立ちましたか? 軽減策はワークロードの耐障害性向上につながると思われますか?

ワークロードの可用性に影響を与える実際の障害イベントが発生した場合は、特定の障害モード、障害に含まれるコンポーネント、使用された軽減パターンを記録します。インシデント後分析ツールでこのメタデータを検索可能にすることで、今後どの障害モードとコンポーネントに注力すべきかを判断できます。このプロセスを通じて、AWS アカウントチームとソリューションアーキテクトを関与させることができます。