View a markdown version of this page

プロアクティブインシデント防止 - AWS DevOps エージェント

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プロアクティブインシデント防止

AWS DevOps Agent は、インシデント調査全体のパターンを分析し、運用体制を継続的に改善し、将来のインシデントを防ぐターゲットを絞ったレコメンデーションを提供します。Operator Web App の「改善」ページからプロアクティブなインシデント防止にアクセスします。

プロアクティブインシデント防止の仕組み

AWS DevOps エージェントは、最近のインシデント調査を評価して、今後のインシデントを防ぎ、平均検出時間 (MTTD) を短縮するための継続的な改善を特定します。エージェントは、複数のインシデントを分析して、将来のインシデントのクラス全体を妨げる可能性のある推奨事項を特定し、最も影響の大きい推奨事項に焦点を当てて、それらが実行可能であることを確認します。

デフォルトでは、エージェントは評価を毎週自動的に実行します。オンデマンドでのみ評価を実行する場合は、スケジュールを一時停止できます。手動評価は常に利用可能であり、最近の調査で推奨される改善を迅速に実施する必要がある場合に役立ちます。

エージェントは、改善ページの推奨事項の分類チャートに示されている 4 つのカテゴリにわたる改善を特定します。

  • オブザーバビリティ – モニタリング、アラート、ログ記録、システムの可視性を強化して、問題を迅速かつ正確に検出するための推奨事項。

  • インフラストラクチャ – リソース設定、容量調整、アーキテクチャの耐障害性を最適化するための推奨事項。

  • ガバナンス – デプロイプロセス、パイプラインの改善、テストプラクティス、運用コントロールを強化するための推奨事項。

  • コードの最適化 – アプリケーションコードの品質、エラー処理、コードの耐障害性を向上させるための推奨事項。

この分類は、運用上の改善が最も必要な場所を理解し、チームの重点分野に基づいてレコメンデーションに優先順位を付けるのに役立ちます。

利点

  • 定期的なインシデントの防止 – 同じタイプの問題に繰り返し対応するのではなく、根本原因に体系的に対処する

  • 運用上の煩雑さの軽減 – チームが反復的な発砲から解放され、イノベーションと戦略的改善に集中できるようになります。

  • システムの耐障害性の向上 – 実際のインシデントデータに基づいてインフラストラクチャ、オブザーバビリティ、デプロイプロセスを強化する

  • 過去のパターンから学ぶ – 過去のインシデントからのインサイトを活用して、最も大きな影響を与えるターゲットを絞った改善を行います。

エージェントの概要

ウェブアプリの「改善」ページのエージェント概要には、最近のインシデントの最終評価の結果の説明が表示されます。概要では、分析されたインシデント調査の数、過去のインシデントと類似しているインシデント、新しい情報で作成または更新された推奨事項について説明します。

概要は、エージェントが最新の評価中に検出した内容をすばやく理解し、運用体制に最も影響を与える可能性のある最も注目すべき推奨事項を強調するのに役立ちます。

評価の制御

AWS DevOps Agent がインシデントを評価し、レコメンデーションを生成するタイミングを制御できます。

  • 評価を手動で実行する – 改善ページの今すぐ実行するボタンをクリックして、評価をすぐに開始します。これは、最近の調査で推奨される改善を迅速に実施する必要がある場合に便利です。

  • アクティブな評価の停止 – 改善ページの評価の停止ボタンをクリックして、現在進行中の評価を停止します。

レコメンデーションの管理

AWS DevOps Agent は、改善ページにレコメンデーションを提供します。改善ページでは、それらを確認して管理できます。

  • レコメンデーションの詳細の表示 – レコメンデーションをクリックしてレコメンデーションの詳細ページを開きます。レコメンデーションの詳細ページには、レコメンデーションに通知したインシデント、予想される影響、次のステップなど、推奨される改善に関する詳細情報が表示されます。コード変更に関する推奨事項については、実装のためにコーディングエージェントに渡すことができるエージェント対応仕様を表示することもできます。

  • キープ — 「キープ」をクリックして、追跡する推奨事項をバックログに保持します。これにより、実装する予定の改善点をモニタリングし、その進捗状況を追跡できます。

  • 破棄 – 「破棄」をクリックして、バックログからレコメンデーションを削除します。レコメンデーションを破棄するときは、その理由を自然言語で説明できます。エージェントは、このフィードバックから学び、それを使用して今後のレコメンデーションを知らせ、時間の経過とともに運用上の優先順位と要件により合わせるようにします。

  • 実装済み – 「実装済み」をクリックして、レコメンデーションを完了済みとしてマークします。これにより、どの改善が適用されたかを追跡し、エージェントが推奨事項の有効性を経時的に測定できるようになります。

  • 自動削除 – レコメンデーションを実装することで新しいインシデントを防ぐことができなかった場合、約 6 週間後にキープまたは実装としてマークされていないレコメンデーションを削除できます。これにより、改善ページでは、運用上の課題に最も関連性の高い改善に焦点を当てることができます。

  • レコメンデーションの更新 – 既存のレコメンデーションは、レコメンデーションによって防止された新しいインシデントが見つかったときに更新されます。更新により、レコメンデーションの優先度が変更されたり、新しいインサイトに基づいてレコメンデーションが絞り込まれたりすることがあります。

レコメンデーションの優先順位付け

AWS DevOps Agent は、最も影響の大きい改善に最初に集中できるように、レコメンデーションを優先度で自動的にランク付けします。ランキングでは、チームの特定のコンテキスト、運用パターン、各レコメンデーションが対処する問題の重要度が考慮されます。

優先順位付けの仕組み

エージェントは、評価サイクルごとに、次の組み合わせを使用してアクティブなレコメンデーション (提案された状態または維持された状態) をランク付けします。

  • AI を活用したランキング – エージェントは、カテゴリの関連性、インシデントの重大度、運用への影響に基づいて、上位のレコメンデーションの相対的な重要性を評価します。

  • 決定論的スコアリング – より大きなバックログの場合、エージェントはインシデントの頻度、重要度パターン、および緊急性に基づいて優先度スコアを適用し、上位の項目を超える順序が一貫しているようにします。

ランク付けされたリストは、数値ランク位置 (1 が最高優先度) で改善ページに表示されます。破棄または実装された推奨事項はランク付けされません。

優先順位のカスタマイズ

チャットインターフェイスを介してチームの優先順位を伝えることで、エージェントがレコメンデーションをランク付けする方法に影響を与えることができます。

  • カテゴリ設定 — どのレコメンデーションカテゴリがチームにとって最も重要であるかをエージェントに伝えます (たとえば、「インフラストラクチャの変更よりもオブザーバビリティの改善を優先します」)。エージェントはこれらの設定を保存し、将来のランキング評価で使用します。

  • コンテキストの提供 – 今後のプロジェクト、コンプライアンス要件、またはチームの重点分野に関する情報を共有します。エージェントは、どのレコメンデーションを優先すべきかを決定するときに、このコンテキストを組み込みます。

設定を更新するには、チャットインターフェイスを使用し、チームの優先順位を自然言語で記述します。エージェントは理解したことを確認し、次の評価サイクルで設定を適用します。

ランクの安定性

レコメンデーションランクは、次の場合に評価サイクル間で変化する可能性があります。

  • 既存のレコメンデーションよりも優先度の高い新しいレコメンデーションが追加されました

  • チームの説明された設定の変更

  • 新しいインシデントデータにより、レコメンデーションのケースが強化または弱まる

既に「キープ」とマークした推奨事項は、ランクの変更に関係なくバックログ内の位置を保持し、ワークフローが中断されないようにします。

エージェント対応仕様

コードまたは設定の変更に関する推奨事項については、 AWS DevOps Agent はエージェント対応仕様を生成できます。この仕様は、実装のためにコーディングエージェントに直接渡すことができる構造化ドキュメントを提供します。

仕様には以下が含まれます。

  • 問題ステートメント – 問題とその根本原因の概要

  • ソリューションの概要 – 推奨されるアプローチの概要の説明

  • ターゲットリポジトリ – 変更が必要な特定のリポジトリ

  • コード変更 – 変更が必要な内容と理由の詳細な説明と、特定のファイルパスと実装に関する考慮事項

  • テスト要件 – テストする必要があるシナリオ

  • 実装計画 – 変更を実装するための段階的なアプローチ

エージェント対応仕様は、コーディングエージェントに本番環境に対応した変更を行うために必要なコンテキストを提供することで、実装を高速化します。エンジニアとの広範なback-and-forthは必要ありません。

レコメンデーションの実装

プロアクティブなインシデント防止レコメンデーションの価値を最大化するには、それらに対応するための以下のプラクティスを検討してください。

  • エージェント対応仕様の使用 – コード変更に関する推奨事項については、生成された仕様を使用して、コーディングエージェントに渡すか、手動実装の詳細なガイドとして使用して実装を高速化します。

  • チケットバックログへのレコメンデーションの追加 – レコメンデーションをチームのチケットシステムまたはプロジェクト管理ツールにコピーして、他のエンジニアリング作業とともに優先されるようにします。

  • 影響に基づいてレコメンデーションを優先する – 最も頻繁または重大なインシデントタイプ、または重要なシステムに影響するインシデントタイプに対処するレコメンデーションに重点を置きます。

  • 実装の進行状況の追跡 – 実装された推奨事項を監視し、同様のインシデントが時間の経過とともに減少するかどうかを観察して、その有効性を測定します。

  • 開発チームとの調整 – 影響を受けるシステムを所有する適切なチームとレコメンデーションを共有し、改善を実装するために必要なコンテキストとリソースを確保します。