Amazon Bedrock リソースのパフォーマンスを評価する
Amazon Bedrock の評価を使用して、Amazon Bedrock モデルとナレッジベース、Amazon Bedrock 外部のモデルと検索拡張生成 (RAG) ソースのパフォーマンスと有効性を評価します。Amazon Bedrock は、モデルのセマンティック堅牢性や、情報の取得とレスポンスの生成におけるナレッジベースの正確性などのパフォーマンスメトリクスを計算できます。ヒューマンワーカーのチームを活用して、評価のための入力を格付けして提供することもできます。
大規模言語モデル (LLM) を活用する評価を含む自動評価では、モデルとナレッジベースの有効性を評価するのに役立つ計算されたスコアとメトリクスが生成されます。人間ベースの評価では、特定のメトリクスに関連して評価と設定を提供する人間で構成されるチームを利用します。
概要: 自動モデル評価ジョブ
自動モデル評価ジョブでは、モデルのタスク実行能力をすばやく評価できます。特定のユースケースに合わせてカスタマイズされた独自のカスタムプロンプトデータセットを使用することも、使用可能な組み込みデータセットを使用することもできます。
概要: ヒューマンワーカーによるモデル評価ジョブ
ヒューマンワーカーによるモデル評価ジョブでは、モデル評価のプロセスに人間の意見を取り入れることができます。このチームには、社内の従業員や業界の専門家を含めることができます。
概要: 判定モデルを使用したモデル評価ジョブ
判定モデルを使うモデル評価ジョブでは、2 つ目の LLM を使用してモデルのレスポンスを迅速に評価できます。2 番目の LLM はレスポンスにスコアを付け、各レスポンスの説明を提供します。
大規模言語モデル (LLM) を使用する RAG 評価の概要
LLM ベースの評価は、ナレッジベースのパフォーマンスメトリクスを計算します。これらのメトリクスは、RAG ソースまたは Amazon Bedrock ナレッジベースが関連性の高い情報を取得し、有用で適切なレスポンスを生成できるかどうかを明らかにします。ナレッジベースが情報を取得し、指定したクエリのレスポンスを生成する方法を評価するために、ユーザーはプロンプトまたはユーザークエリを含むデータセットを提供します。データセットには、レッジベースが期待どおりに機能するかどうかを評価できるように、「グラウンドトゥルース (正解)」、つまりクエリで取得されると想定されるテキストとレスポンスを含める必要があります。
最初のモデル評価ジョブの作成の詳細については、次のトピックを参照してください。
モデル評価ジョブは、以下のタイプの Amazon Bedrock モデルをサポートしています。
-
基盤モデル
Amazon Bedrock Marketplace モデル
-
カスタマイズされた基盤モデル
-
インポートされた基盤モデル
-
プロンプトルーター
-
プロビジョンドスループットを購入したモデル