ステージ 5: 対応と学習

スタートアップを実行すると、複雑な事後プロセスによってチームが遅くなる可能性があります。この章では、インシデントを行政機関の演習に変えることなく、インシデントから学ぶ方法について説明します。

インシデント学習を既存のリズムに統合します。チームにすでに定期的な会議がある場合は、10 分間で最近のインシデントについて話し合います。次のような実用的な質問に焦点を当てます。

ランブックは役に立ちましたか?
アラートは適切なタイミングで行われましたか?
AWS マネージドサービスはこれを防ぐことができましたか?

非難ではなく、アクションに集中してください。スタートアップでは、完璧なシステムを構築していません。何か問題が発生するたびに改善されるシステムを構築しています。

チケットシステムを使用してインシデントを追跡できます。特殊なツールは必要ありません。インシデントのタイムライン、顧客への影響、実行された復旧手順、教訓を含むシンプルなテンプレートを作成します。アクティブに使用すると、このカメラは機関メモリになります。オンボーディング中に過去のインシデントを確認し、新しいエンジニアを高速化します。類似システムを設計するときは、アーキテクチャレビューで参照してください。それらをゲームデーにプルして、実際のイベントに基づいて現実的な障害シナリオを作成します。テンプレートは何が起こったのかをキャプチャし、定期的に使用すると組織学習に変換されます。

スタートアップが増えるにつれて、パターンが現れます。特定のコンポーネントが失敗する頻度が高い場合や、特定のタイプの変更が原因で問題が発生する場合があります。これらのパターンを使用して、レジリエンスへの投資をガイドします。データベースのフェイルオーバーが原因で問題が発生した場合は、複数のアベイラビリティーゾーンの設定を改善することを検討してください。サードパーティーのサービス中断が一般的なテーマである場合は、サーキットブレーカーの改善を検討してください。

目標は、考えられるすべての障害を防ぐことではありません。これは不可能であり、速度が下がりすぎます。目標は、急速に成長している間に、迅速に学習し、迅速に適応し、アプリケーションの信頼性を十分に維持することです。各インシデントを機会として使用して、システムの耐障害性を高め、チームの知識を深め、お客様のサービスに対する信頼度を高めます。スタートアップの場合、スピードと学習ビートの完成度。イノベーションを遅らせることなく、インシデントから学ぶのに役立つ軽量なプロセスを作成します。レジリエンスに関するベストプラクティスは、チームが実際に使用するものです。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ステージ 4: 運用

次の手順