エージェントの詳細 - 評価 - Amazon CloudWatch

エージェントの詳細 - 評価

評価は、AI エージェントの継続的な品質モニタリングメトリクスを提供します。ダッシュボードから提供された情報を使用して、AI エージェントのパフォーマンス、品質、信頼性を評価できます。

評価は、シミュレートされたテストケースに依存するのではなく、実際のユーザーセッションとエージェントのやり取りをキャプチャするため、入力から最終出力まで、エージェントのパフォーマンスを包括的に把握できます。エージェント評価では、サンプリングルールを定義してセッションまたはトレースの割合のみを評価し、さまざまなエバリュエーターを適用して AI エージェントの動作パフォーマンスを評価およびスコアリングできます。結果の評価とスコアが [評価] ダッシュボードに表示されるため、傾向のモニタリング、潜在的な品質問題の特定、アラームの設定、潜在的な問題の調査と診断ができます。

[評価] ダッシュボードには、選択したエージェントに対して有効および設定されたすべての評価が一覧表示されます。エージェントの評価の設定の詳細については、「AgentCore の評価」を参照してください。各評価を展開して、評価されたセッション、トレース、スパンを表示できます。

評価

評価の詳細

各評価について、ダッシュボードには以下のセクションが含まれます。

Evaluation configuration metrics

評価設定全体のメトリクスを提供します。エバリュエーターは、AI エージェントのパフォーマンスの特定の側面を評価する方法を定義します。エバリュエーターの詳細を表示するには、[評価者] 列でその名前を選択します。棒グラフを表示してエバリュエーターの傾向を分析するには、[カウント] 列の値を選択します。

評価設定メトリクス
Session evaluations

セッションレベルでエバリュエーターの評価結果を提供します。セッションは、単一のユーザーまたはワークフローからの関連するやり取りの論理的なグループ化を表します。セッションには 1 つまたは複数のトレースが含まれる可能性があります。[トレース評価] セクションで、そのセッション内のトレースのリストにフィルタリングして入れるセッションを選択できます。

セッション評価
Trace evaluations

トレースレベルでエバリュエーターの評価結果を提供します。トレースは、単一のエージェント実行またはリクエストの完全なレコードです。トレースには 1 つまたは複数のスパンが含まれる可能性があります。トレースを選択すると、トレースの詳細とそのトレースで実行されたすべてのエバリュエーターが表示されます。

トレース評価
Span evaluations

スパンレベルでエバリュエーターの評価結果を提供します。スパンは、その実行中に実行された個々のオペレーションを表します。スパンを選択すると、スパンの詳細と、そのスパン中に実行されたすべてのオペレーションが表示されます。

スパン評価

評価グラフ

[評価] ダッシュボードには、各エバリュエーターの棒グラフも含まれています。グラフには、各エバリュエーターの経時的な傾向が表示され、特定のメトリクス値のアラームを設定できます。アラームを設定するには、グラフのバーをクリックし、[アラーム] (ベル) アイコンを選択します。詳細については、「Amazon CloudWatch でのアラームの使用」を参照してください。

評価グラフ

評価結果の操作

評価結果データに直接アクセスする必要がある場合、または視覚化をカスタマイズしたり AgentCore Evaluations コンソール外で作業したりする場合は、CloudWatch Logs、CloudWatch Metrics、CloudWatch ダッシュボードから直接評価結果にアクセスできます。

CloudWatch Logs での評価結果へのアクセス

評価結果は、埋め込みメトリクス形式 (EMF) の CloudWatch Logs に自動的に発行されます。

評価結果ロググループを検索するには
  1. CloudWatch コンソールを開きます。

  2. ナビゲーションペインで、[ログ管理] > [ロググループ] の順に選択します。

  3. プレフィックスが /aws/bedrock-agentcore/evaluations/ のロググループを検索するか、そこに移動します。

  4. このロググループ内では、ログイベントには評価結果が含まれます。

ロググループの使用とログデータのクエリの詳細については、「ロググループとログストリームの使用」および「CloudWatch Logs Insights を使用したログデータの分析」を参照してください。

CloudWatch Metrics での評価メトリクスへのアクセス

評価結果メトリクスは、埋め込みメトリクス形式 (EMF) ログから自動的に抽出され、CloudWatch メトリクスに発行されます。

評価メトリクスを検索するには
  1. CloudWatch コンソールを開きます。

  2. ナビゲーションペインで、[メトリクス] > [すべてのメトリクス] の順に選択します。

  3. Bedrock AgentCore/Evaluations 名前空間を選択します。

  4. 利用可能なメトリクスをディメンション別に参照します。

メトリクスの表示と操作の詳細については、「CloudWatch メトリクスの使用」と「メトリクスのグラフ化」を参照してください。

カスタムダッシュボードの作成

カスタムダッシュボードを作成して、評価メトリクスを他の運用メトリクスとともに可視化できます。

評価メトリクスを使用してダッシュボードを作成するには
  1. CloudWatch コンソールで、ナビゲーションペインの [ダッシュボード] を選択します。

  2. [ダッシュボードを作成] を選択します。

  3. Bedrock AgentCore/Evaluations 名前空間からウィジェットを追加し、メトリクスを選択します。

  4. ニーズに合わせて時間範囲、統計、視覚化タイプをカスタマイズします。

詳細な手順については、「カスタムダッシュボードの作成と操作」および「CloudWatch ダッシュボードの使用」を参照してください。

評価メトリクスにアラームを設定する

正確性が許容レベルを下回った場合など、指定したしきい値を評価メトリクスが超えたときに通知するようにアラームを設定できます。

評価メトリクスでアラームを作成するには
  1. CloudWatch コンソールで、[アラーム] > [すべてのアラーム] の順に選択します。

  2. [アラームの作成] を選択します。

  3. [メトリクスを選択] を選択し、Bedrock AgentCore/Evaluations 名前空間に移動します。

  4. モニタリングするメトリクスを選択します。

  5. しきい値条件 (静的数値のしきい値を指定する必要がない動的異常検出しきい値を使用可能) と通知アクションを設定します。

詳細な手順については、「CloudWatch アラームの使用」および「静的しきい値に基づく CloudWatch アラームの作成」を参照してください。

その他のリソース