トレース - Amazon OpenSearch Service

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレース

Amazon OpenSearch Service は、アプリケーションのパフォーマンスを理解し、マイクロサービスアーキテクチャ全体の問題を診断するのに役立つ包括的な分散トレース機能を提供します。OpenSearch Ingestion で OpenTelemetry (OTel) トレースデータを取り込むことで、OpenSearch Service はテレメトリ情報を自動的に処理して構造化し、分散システム経由のリクエストフローをend-to-endで可視化できます。

トレースデータ処理と取り込み

OpenSearch Ingestion には、取り込み中にトレースデータを正規化して強化する特殊なプロセッサが用意されており、テレメトリが一貫したパターンに従い、分析の準備が整います。トレースデータのキープロセッサは次のとおりです。

  • service_map – スパン関係からサービス依存関係グラフを自動的に構築し、サービス間のリクエストの流れを示します。

  • trace_group – HTTP メソッドやパスなどのエントリスパン属性に基づいて、関連するスパンを論理トレースグループに集約します。

  • otel_trace_raw – 未加工の OpenTelemetry トレースデータを処理し、スパン属性、リソース属性、計測スコープ情報を検索可能なフィールドに抽出します。

OpenSearch UI とオブザーバビリティワークスペース

トレースデータが Amazon OpenSearch Service に取り込まれたら、OpenSearch UI の Amazon OpenSearch Service オブザーバビリティワークスペースが提供するツールを使用して分析します。オブザーバビリティワークスペースは、サービスのパフォーマンスの理解、ボトルネックの特定、分散アーキテクチャ全体の問題のトラブルシューティングに役立つように設計された、特殊な視覚化および分析ツールを提供します。

オブザーバビリティワークスペースには、計測されたすべてのサービスの RED メトリクス (レート、エラー率、期間) と、依存関係と通信パターンを示すインタラクティブなサービスマップを表示するサービスビューが含まれています。トレースビューでは、トレース IDs またはスパン IDs を使用して特定のトレースを検索し、詳細なウォーターフォールグラフとスパン分析をドリルダウンして、システム全体のリクエストジャーニーを把握できます。

主な機能

サービスビュー

サービスビューには、以下を通じてアプリケーションのヘルスとパフォーマンスの包括的な概要が表示されます。

  • RED メトリクスダッシュボード – 分散システム内の各サービスのレート (1 秒あたりのリクエスト数)、エラー率 (失敗したリクエストの割合)、期間 (レイテンシーパーセンタイル数) をモニタリングします。これらのメトリクスは、サービスの状態をすぐに把握し、パフォーマンスの低下をすばやく特定するのに役立ちます。

  • インタラクティブサービスマップ – 自動的に生成された依存関係グラフを使用して、サービスが相互に通信する方法を視覚化します。サービスマップにはサービス間のリクエストフローが表示され、システムアーキテクチャを理解し、ボトルネックやカスケード障害を特定するのに役立ちます。

  • サービスヘルスインジケータ – エラー率とレイテンシーしきい値に基づいて、問題のあるサービスをすばやく特定します。サービスは色分けされ、即時対応が必要なサービスが強調表示されるため、トラブルシューティング作業の優先順位付けが容易になります。

  • サービス相関ダイアログ – 任意のサービスからドリルダウンして、関連するログとトレースを分析します。この統合ビューは、サービスレベルのメトリクスを詳細なトレースデータと関連ログエントリと接続するため、さまざまなツールを切り替えることなく、根本原因をより迅速に分析できます。

トレースビュー

トレースビューを使用すると、分散システムを通じて個々のリクエストを詳細に調査できます。

  • HTTP メソッドとパスによるトレースのグループ化 – API エンドポイントに基づいてトレースを自動的に論理グループに整理し、平均レイテンシー、エラー率、パフォーマンスの経時的な傾向などの集計メトリクスを表示します。これにより、問題が発生しているエンドポイントを特定し、パフォーマンスの向上を追跡できます。

  • トレース ID とスパン ID の検索 – トレース識別子またはスパン識別子を使用して、特定のトレースをすばやく見つけます。これは、ユーザーによって報告された問題を調査したり、トレースコンテキストを含むエラーログと関連付けたりする場合に特に便利です。

  • ウォーターフォールグラフ – サービスを通過するリクエストの完全なタイムラインを視覚化します。ウォーターフォールビューにはスパンのタイミングと期間が表示されるため、低速なオペレーション、シーケンシャル処理と並列処理、分散システムで費やされている時間を簡単に特定できます。

  • 階層的なスパンの内訳を含むツリービュー – スパン間の親子関係を移動して、トレース内の呼び出し階層を理解します。このビューは、リクエストがサービス間でどのように分岐するかを確認し、どのサービス呼び出しが全体的なレイテンシーに寄与しているかを特定するのに役立ちます。

  • 関連付けられたログパネル – トレースと同じ期間中に発生したログを表示し、関連するサービスとトレースコンテキストでフィルタリングします。トレースとログの相関関係により、リクエストフローと詳細なアプリケーションログの両方を 1 つのインターフェイスで提供することで、トラブルシューティングが大幅に向上します。

高度な機能

  • 相関分析 – トレース、スパン、サービスを対応するログにシームレスにリンクします。オブザーバビリティワークスペースは、トレースコンテキストを使用してテレメトリデータを自動的に関連付けるため、コンテキストを失うことなく同じリクエストの異なるビュー間でピボットできます。

  • カスタムインデックス名とクラスター間のサポート – カスタムインデックスパターンまたは複数の OpenSearch クラスターからトレースデータを読み取るように OpenSearch Service を設定します。この柔軟性により、複雑なデプロイシナリオがサポートされ、運用上のニーズに合わせてテレメトリデータを整理できます。

  • 設定可能なサービスマップの制限 – サービスマップに表示されるサービスと接続の数を調整して、大規模なトポロジを処理します。数百のサービスがあるシステムでは、マップをフィルタリングして特定のサービスサブセットに焦点を当てたり、レンダリング制限を調整してパフォーマンスを維持したりできます。

  • ガントグラフのミニマップナビゲーション – ミニマップの概要を使用して、大規模なトレースウォーターフォールグラフを効率的にナビゲートします。この機能は、多くのスパンを持つトレースを分析する場合に特に役立ち、タイムラインのさまざまなセクションにすばやくジャンプできます。

トレースは、OpenTelemetry (OTel) プロトコルデータに基づいて、アプリケーションのパフォーマンスをat-a-glance可視化します。サービス間のend-to-endジャーニーを追跡することで、リクエストが分散システムをどのように流れるかを理解するのに役立ちます。