View a markdown version of this page

組織全体でのカオスエンジニアリングのスケーリング - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

組織全体でのカオスエンジニアリングのスケーリング

組織がカオスエンジニアリングを採用するにつれて、標準化と実装には課題が伴います。成熟の初期段階では、さまざまなチームがさまざまなツールを使用し、前のセクションで説明したカオスエンジニアリングプロセスのバリエーションを使用する可能性があります。同時に、潜在的な利点にもかかわらず、一部のチームはカオスエンジニアリングを優先または採用しない場合があります。以下のセクションでは、これらの課題を克服する方法に関するガイダンスを提供します。

全体として、カオスエンジニアリングへのアプローチは、一元的なリーダーシップと分散的な参加のバランスを取るように設計する必要があります。このバランスにより、カオスエンジニアリングが開発プロセスに統合され、学習結果が組織全体で共有されます。

カオスエンジニアリングプラクティスの確立

カオスエンジニアリングの実践を標準化することで、カオスエンジニアリングの導入を加速できます。実験から学んだことをチーム間で共有することで、カオスエンジニアリングへの投資に対するリターンを高めることができます。

カオスエンジニアリングプラクティスの一環として、一元化されたセンターオブエクセレンスを構築するか、対象分野のエキスパートのグループを構築します。小規模で一元化された機能として、このチームはソフトウェア開発、インフラストラクチャ、セキュリティ、ビジネスチーム全体で機能し、それらのチームが使用する標準を維持できます。わかりやすくするために、 このガイドの残りの部分では、センターオブエクセレンスを一元化された練習チームと呼び、カオスエンジニアリングを適用するグループを練習チームと呼びます。

一元化されたプラクティスチームの役割

一元化されたプラクティスチームは、組織全体でカオスエンジニアリングプラクティスを開発および実装する責任があります。彼らは練習チームと密接に連携して、実験の設計と実施をガイドし、実験がビジネスにとって価値があることを確認します。また、一元化されたプラクティスチームは、開発、インフラストラクチャ、セキュリティチームにガイダンスとサポートを提供し、カオスエンジニアリングを開発プロセスに統合するのに役立ちます。

一元化されたカオスエンジニアリングプラクティスチームの主な責任は次のとおりです。

  • 有効化 – 一元的なカオスエンジニアリング機能は、ゲームデーやワークショップを通じてカオスエンジニアリングの実践を紹介するファシリテーターとして機能します。これらは、障害シナリオの選択、仮説の定義、より広範な組織と共有されるレポートの作成など、カオスエンジニアリングの過程でチームをガイドします。一元化された練習チームはトレーニング資料を所有し、カオスエンジニアリングの使用について練習チームにスキル向上に取り組む必要があります。

  • アドバイザリ — 集中型練習チームは、練習チームによって実施される実験を監督するアドバイザリの役割を担うこともできます。彼らの経験と知識は、実験がビジネスに価値をもたらし、安全な方法で実施されることを保証します。同様に、チームは実験の実行と報告を監督して、カオスエンジニアリングを初めて利用する人々をガイドできます。

  • マーケティングと価値の追跡 – カオスエンジニアリングのビジネス価値を伝えることは、そのようなプログラムを成功させるための鍵です。カオスエンジニアリング実験に参加する各チームは、ビジネス全体の実験からデータを収集し、カオスエンジニアリングへの組織の投資の価値を実証する必要があります。これには、各実験中に回避されたインシデントの数、実験が失敗した場合に発生したはずのダウンタイム、および障害シナリオが本番環境で発生した場合のビジネスへの全体的な影響を定量化して祝うことが含まれます。このようなデータをチーム間で収集して一元化し、組織全体で利用できるようにすることで、一元化されたプラクティスチームは組織全体のカオスエンジニアリングの導入から得られる価値を追跡し、影響を与えることができます。

  • 標準 – 一元化されたプラクティスチームは、カオス実験を実施するためのプロセス、実験の計画と報告のためのテンプレート、実験の実行に使用されるツールを所有し、維持する必要があります。

    中央チームは、実験計画テンプレート、実験レポートテンプレート、プロセスドキュメント、有効化マテリアルを所有および管理する必要があります。ベストプラクティスのドキュメントと有効化資料は、実験の影響を制限するために使用できるガードレール、本番環境で実験を実行するタイミング、時間の経過とともにカオスエンジニアリングの使用を進化させる方法などのトピックについてチームを実践するためのガイダンスを提供します。テンプレートと出力の例については、付録を参照してください。

    一元化されたプラクティスチームは、コミュニケーションやエスカレーション、実験前または実験中に組織内の他のチームといつどのようにコミュニケーションを取るかなど、実験を実行するプロセスも所有する必要があります。このプロセスでは、ガードレールが必要なタイミングについても概説する必要があります。

    一元化されたプラクティスチームは、カオス実験を実施するためのコアツール ( などのツール) も選択して所有する必要があります AWS FIS。負荷生成ツールなどの補足ツールの選択と実装は、練習チームに任せる必要があります。練習チームは、ニーズに最適なプロセスとツール全体を調整できる必要があります。

練習チームの役割

集中型チームは全体的なカオスエンジニアリング戦略を推進しますが、実践チームはプロセスに参加し、実験の開発と実行を所有しています。これにより、実験が各特定の製品やサービスに関連し、学習が実行可能であり、製品の信頼性と耐障害性を向上させるために適用できます。一元化されたプラクティスチームは、組織のカオスエンジニアリング標準とプロセスの指導者および所有者として機能します。ただし、一元化されたチームがボトルネックにならないようにするには、個々の練習チームが一元的なプラクティスから学び、カオス実験を実行する必要があります。

実践コミュニティの確立

一元化されたチームを作成するだけでなく、カオスエンジニアリングに関心のある実践者の非公式なコミュニティを確立することをお勧めします。このコミュニティは、実践的なチームや組織全体で知識、ベストプラクティス、経験を共有するためのプラットフォームを提供します。

実践コミュニティは一元的なカオスエンジニアリング実践チームによって運営できますが、組織内の誰でもコミュニティのメンバーになることができます。一元化されたチームは、実践コミュニティを活用して、更新とソース学習をブロードキャストし、一元化されたチームが管理する標準とプロセスを使用している実践チームからフィードバックを収集できます。コミュニティはフィードバックループとして機能し、実践チーム全体のカオスエンジニアリングプラクティスの有効性を一元化されたチームに通知します。その後、一元化されたプラクティスチームは、製品チームをサポートするためにドキュメントとサポートアーティファクトを調整できます。

カオスエンジニアリングを運用レジリエンスに組み込む

カオス実験は、本番環境でのインシデントを防ぐための企業による投資です。この投資に対する最大のリターンを企業がどこで実現できるかを判断する必要があります。組織は、一元化されたカオスエンジニアリングプラクティスチームと協力して標準を更新し、カオス実験を必要とするほど重要な製品を決定できます。

システム開発プロセス

カオスエンジニアリングとカオス実験は、アプリケーションのライフサイクルの一部として繰り返し実行する必要があります。チームがディザスタリカバリテストを定期的に実行する方法と同様に、カオス実験やゲームデーを年間を通じて継続的かつ定期的に実施する必要があります。このアプローチにより、組織がインシデントを予測、観察し、対応する方法が向上します。