翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ステージ 5: 対応と学習
スタートアップを実行すると、複雑な事後プロセスによってチームが遅くなる可能性があります。この章では、インシデントを行政機関の演習に変えることなく、インシデントから学ぶ方法について説明します。
インシデント学習を既存のリズムに統合します。チームにすでに定期的な会議がある場合は、10 分間で最近のインシデントについて話し合います。次のような実用的な質問に焦点を当てます。
-
ランブックは役に立ちましたか?
-
アラートは適切なタイミングで行われましたか?
-
AWS マネージドサービスはこれを防ぐことができましたか?
非難ではなく、アクションに集中してください。スタートアップでは、完璧なシステムを構築していません。何か問題が発生するたびに改善されるシステムを構築しています。
チケットシステムを使用してインシデントを追跡できます。特殊なツールは必要ありません。インシデントのタイムライン、顧客への影響、実行された復旧手順、教訓を含むシンプルなテンプレートを作成します。アクティブに使用すると、このカメラは機関メモリになります。オンボーディング中に過去のインシデントを確認し、新しいエンジニアを高速化します。類似システムを設計するときは、アーキテクチャレビューで参照してください。それらをゲームデーにプルして、実際のイベントに基づいて現実的な障害シナリオを作成します。テンプレートは何が起こったのかをキャプチャし、定期的に使用すると組織学習に変換されます。
スタートアップが増えるにつれて、パターンが現れます。特定のコンポーネントが失敗する頻度が高い場合や、特定のタイプの変更が原因で問題が発生する場合があります。これらのパターンを使用して、レジリエンスへの投資をガイドします。データベースのフェイルオーバーが原因で問題が発生した場合は、複数のアベイラビリティーゾーンの設定を改善することを検討してください。サードパーティーのサービス中断が一般的なテーマである場合は、サーキットブレーカーの改善を検討してください。
目標は、考えられるすべての障害を防ぐことではありません。これは不可能であり、速度が下がりすぎます。目標は、急速に成長している間に、迅速に学習し、迅速に適応し、アプリケーションの信頼性を十分に維持することです。各インシデントを機会として使用して、システムの耐障害性を高め、チームの知識を深め、お客様のサービスに対する信頼度を高めます。スタートアップの場合、スピードと学習ビートの完成度。イノベーションを遅らせることなく、インシデントから学ぶのに役立つ軽量なプロセスを作成します。レジリエンスに関するベストプラクティスは、チームが実際に使用するものです。