アプリケーションの問題のトラブルシューティング - Amazon CloudWatch

アプリケーションの問題のトラブルシューティング

Application Signals を使用すると、アプリケーションでまれに発生するレイテンシーの急増をトラブルシューティングできます。トランザクション検索を有効にし、期間の 100% をキャプチャするヘッドサンプリングレートを設定すると、アプリケーションの問題を完全に可視化できます。以下のシナリオでは、Application Signals とトランザクションスパンを使用して、サービスをモニタリングし、サービス品質の問題を特定する方法を説明します。

トラブルシューティングシナリオの例

このシナリオでは、サードパーティーの支払い API を呼び出す複数のマイクロサービスから成るペットクリニックアプリケーションに焦点を当てています。これらの呼び出しは断続的に遅く、収益に影響を与えています。

Jane は CloudWatch Application Signals コンソールを開き、顧客の登録を担当するカスタマーサービスアプリケーションが正常で、SLO に違反していないことに気付きます。

CloudWatch Application Signals コンソール

彼女はこのサービスを開いて、まれに発生する障害のパターンを調査し、登録 API で断続的な p99 レイテンシースパイクが発生したことに気付きます。

断続的なレイテンシースパイク

Jane は、レイテンシーチャートのデータポイントを選択して、相関スパンを表示します。顧客 ID でスパンをグループ化して、レイテンシーの急増の影響を受けたすべての顧客を表示します。

レイテンシーの急増の影響を受けるお客様

Jane が障害ステータスと相関関係があるスパンの 1 つを選択すると、選択したトレースのトレース詳細ページが開きます。セグメントタイムラインセクションにスクロールして通話パスをたどります。そこで、支払いゲートウェイへの通話が失敗し、顧客の登録が妨げられていることに気付きます。

通話支払いの失敗