サービスページで全体的なサービスアクティビティと運用状態を確認する - Amazon CloudWatch

サービスページで全体的なサービスアクティビティと運用状態を確認する

サービスページでは、Application Signals が有効になっているサービスのリストを確認できます。また、オペレーションのメトリクスを表示して、どのサービスに異常なサービスレベル指標 (SLI) があるかをすばやく確認することもできます。ドリルダウンしてパフォーマンスの異常を探しながら、運用上の問題の根本原因を特定します。このページを表示するには、CloudWatch コンソールを開き、左側のナビゲーションペインの [Application Signals] セクションで [サービス] を選択します。

未計測のサービスの場合、[サービスの概要] ページには、Application Signals 計測を有効にするための目立つ Call to Action とともに限定された情報が表示されます。

サービスの運用状態に関するメトリクスを詳しく見る

[サービス] ページの上部には、サービス全体の運用状態のグラフ、上位のサービスとサービス依存関係を障害率別に表示した複数のテーブル、およびサービスのリストが表示されます。左側のサービスグラフには、現在のページレベルの時間フィルターで正常または異常なサービスレベル指標 (SLI) が発生したサービスの数の内訳が表示されます。SLI により、レイテンシー、可用性、その他の運用メトリクスをモニタリングできます。グラフの横にある 2 つのテーブルには、上位のサービスが障害率別に表示されています。いずれかのテーブルでサービス名を選択すると、[サービスの詳細] ページが開き、詳細なサービスオペレーション情報が表示されます。依存関係パスを選択して、詳細ページでサービス依存関係の詳細を表示します。

ページの右上でより長い期間のフィルターを選択した場合でも、過去 3 時間までの情報が両方のテーブルに表示されます。

動的サービスグループ化を使用する場合、運用状態に関するメトリクスは、各グループ内のすべてのサービスにわたって自動的に集計されたデータになります。これにより、以下が提供されます。

  • サービスグループごとの統合障害率

  • グループレベルの SLI ヘルスステータス

  • 問題のあるサービスクラスターの特定に役立つ集約されたパフォーマンスメトリクス

  • インシデント発生時に直ちに対応が必要なグループの迅速な特定

CloudWatch のサービス上部のグラフ

サービステーブルで運用状態を監視する

サービステーブルには、Application Signals が有効になっているサービスのリストが表示されます。[Application Signals を有効にする] を選択してセットアップページを開き、サービスの設定を開始します。詳細については、「Application Signals を有効にする」を参照してください。

フィルターテキストボックスから 1 つまたは複数のプロパティを選択して、サービステーブルをフィルタリングすると、探しているものを見つけやすくなります。各プロパティを選択すると、フィルター条件が表示されます。フィルターテキストボックスの下に、すべてのフィルターが表示されます。[フィルターのクリア] を選択すると、いつでもテーブルのフィルターを削除できます。

高度なフィルタリングオプションを使用すると、次の操作が可能になります。

  • サービスグループ (デフォルトグループ化とカスタムグループ化の両方) によるフィルタリング

  • 最近のデプロイアクティビティによるフィルタリング

  • プラットフォームによるフィルタリング

  • SLI ヘルスによるフィルタリング

  • (クロスアカウントオブザーバビリティ設定内の) アカウント ID によるフィルタリング

  • 計測ステータス (計測済みと未計測) によるフィルタリング

  • 環境によるフィルタリング

  • サービス状態のステータスによるフィルタリング

CloudWatch のサービステーブル

未計測のサービスの場合、[サービスの概要] ページには、Application Signals 計測を有効にするための目立つ Call to Action とともに限定された情報が表示されます。未計測のサービスは、Application Signals で設定されていない場合でも [サービス] テーブルに表示されるため、オブザーバビリティのカバー範囲のギャップを特定し、アーキテクチャ内の位置に基づいて次に計測するサービスを優先順位付けするのに役立ちます。

テーブル内のサービスの名前を選択すると、サービスレベルのメトリクス、オペレーション、その他の詳細を含むサービスの詳細ページが表示されます。サービスの基盤となるコンピュートリソースを AppRegistry のアプリケーションまたは AWS マネジメントコンソールホームページのアプリケーションカードに関連付けている場合は、アプリケーション名を選択すると、myApplications コンソールページにアプリケーションの詳細が表示されます。Amazon EKS でホストされているサービスの場合は、[ホスト元] 列内の任意のリンクを選択すると、CloudWatch Container Insights 内のクラスター、名前空間、またはワークロードが表示されます。Amazon ECS または Amazon EC2 で実行されているサービスの場合は、環境値が表示されます。

サービスレベル指標 (SLI) のステータスは、サービスごとにテーブルに表示されます。サービスの SLI ステータスを選択すると、異常な SLI へのリンクと、そのサービスのすべての SLO を確認するためのリンクを含むポップアップが表示されます。

SLI が異常なサービス

サービスの SLO が作成されていない場合は、[SLI ステータス] 列の [SLO の作成] ボタンを選択します。サービスに追加の SLO を作成するには、サービス名の横にあるオプションボタンを選択し、テーブルの右上にある [SLO の作成] を選択します。SLO を作成すると、どのサービスとオペレーションが正常に実行されていて、どれが異常かがひとめでわかります。詳細については、「service level objectives (SLOs)」を参照してください。

サービスの概要

サービステーブルからサービスを選択すると、[サービスの概要] ページが開きます。このページでは、サービスの運用状態とパフォーマンスのメトリクスを包括的に表示します。[概要] には、以下の概要メトリクスが表示されます。

  • 合計オペレーション数

  • サービスの依存関係

  • Canary モニタリングステータス

  • RUM クライアントデータ

これらのメトリクスにより、サービスの現在の状態をすぐに把握できます。

一連のグラフを使用して、主要な運用パフォーマンス指標を経時的に可視化できます。傾向を分析し、サービス状態に影響する潜在的な問題を特定するには、時間フィルターを調整します。すべてのグラフは、選択した期間のデータを反映するように自動的に更新されます。

[監査の結果] セクションでは、サービスの動作における重大な問題が自動的に検出されて表示されるため、手動で調査する必要はありません。Application Signals は、アプリケーションを分析して重大な観察結果と潜在的な問題を報告し、根本原因の分析を簡素化します。これらの自動検出結果により、関連するトレースが統合されるため、複数回クリックして移動する必要がなくなります。監査システムは、チームが問題とその基になる原因をすばやく特定し、問題解決を迅速化します。

[変更イベント] セクションを使用すると、最近のデプロイまたは設定の変更がサービスの動作にどのように影響するかを特定できます。Application Signals は CloudTrail イベントを自動的に処理して、アプリケーション全体の変更イベントを追跡します。サービスとその依存関係の設定イベントとデプロイイベントをモニタリングし、運用分析とトラブルシューティングのコンテキストを即座に提供します。Application Signals は、デプロイ時刻とパフォーマンスの変化を自動的に関連付けるため、最近のデプロイがサービスの問題の原因になっているかどうかをすばやく特定できます。

サービスの概要