Amazon Bedrock のインテリジェントなプロンプトルーティングを理解する
Amazon Bedrock Intelligent Prompt Routing は、単一のサーバーレスエンドポイントを提供して、同じモデルファミリー内のさまざまな基盤モデルの間でリクエストを効率的にルーティングします。リクエストごとに各モデルのレスポンス品質を動的に予測し、最適なレスポンス品質のモデルにリクエストをルーティングできます。これにより、レスポンス品質とコストの両方を最適化できます。
トピック
インテリジェントなプロンプトルーティング向けにサポートされているリージョンとモデル
インテリジェントプロンプトルーティングは、次のモデルでサポートされています。
| プロバイダー | モデル | 基盤モデルをサポートするリージョン | 推論プロファイルをサポートするリージョン |
|---|---|---|---|
| Amazon | Nova Lite |
us-east-1 us-gov-west-1 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Amazon | Nova Pro |
us-east-1 us-gov-west-1 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Anthropic | Claude 3.5 Haiku |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Anthropic | Claude 3.5 Sonnet |
us-east-1 us-west-2 us-gov-west-1 ap-northeast-1 ap-northeast-2 eu-central-1 |
us-east-1 us-east-2 us-west-2 us-gov-east-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Anthropic | Claude 3.5 Sonnet v2 |
us-west-2 ap-southeast-2 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 |
| Anthropic | Claude 3 Haiku |
us-east-1 us-west-2 us-gov-west-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
us-east-1 us-east-2 us-west-2 us-gov-east-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Meta | Llama 3.1 70B Instruct |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 8B Instruct |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 11B Instruct |
N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 90B Instruct |
N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.3 70B Instruct |
us-east-2 |
us-east-1 us-east-2 us-west-2 |
利点
-
レスポンス品質とコストの最適化: プロンプトをさまざまな基盤モデルにルーティングして、最低のコストで最良のレスポンス品質を実現します。
-
管理の簡素化: 複雑なオーケストレーションロジックが不要になります。
-
将来への対応: 利用可能になった新しいモデルを組み込みます。
デフォルトおよび設定済みのプロンプトルーター
インテリジェントなプロンプトルーティングを使用するときは、Amazon Bedrock が提供するデフォルトのプロンプトルーターを使用することも、独自のプロンプトルーターを設定することもできます。
デフォルトのプロンプトルーターは、Amazon Bedrock が提供する事前設定されたルーティングシステムです。これらのルーターには事前定義された設定が付属し、特定の基盤モデルですぐ使用できるように設計されています。ルーティング設定を行う必要がなく、簡単ですぐに使用できるソリューションを提供します。インテリジェントなプロンプトルーティングを開始するときは、Amazon Bedrock が提供するデフォルトのルーターを試すことをお勧めします。プレビュー中に、Anthropic および Meta ファミリーで一部のモデルを使用することを選択できます。
設定済みのプロンプトルーターを使用すると、特定のニーズや好みに合わせた独自のルーティング設定を定義できます。これらは、ルーティング基準、リクエストのルーティング方法、使用するモデルをより細かく制御する必要があるときに適しています。設定済みルーターでは、レスポンス品質メトリクスとユースケースに基づいて最適化できます。デフォルトのルーターを試したら、使用するアプリケーションに適した独自のルーターを設定し、プレイグラウンドのレスポンス品質を評価し、要件を満たしている場合は本番稼働用アプリケーションに使用できます。
考慮事項と制限
Amazon Bedrock でのインテリジェントなプロンプトルーティングに関する考慮事項と制限事項を次に示します。
-
インテリジェントプロンプトルーティングは、英語プロンプトにのみ最適化されています。
-
インテリジェントプロンプトルーティングでは、アプリケーション固有のパフォーマンスデータに基づいてルーティングの決定やレスポンスを調整できません。
-
インテリジェントプロンプトルーティングは、独自または特殊なユースケースに最適なルーティングを提供するとは限りません。ルーティングの有効性は、初期トレーニングデータによって異なります。
プロンプトルーターの基準とフォールバックモデル
プロンプトルーターを設定するときは、ルーティング条件を指定できます。ルーティング条件は、レスポンス品質の差に基づいてリクエストを処理するために選択するモデルを決定するために使用されます。この基準を使用して、フォールバックモデルのレスポンスが他のモデルのレスポンスにどれだけ近いかを判断します。
フォールバックモデル
リクエストに適したフォールバックモデルを選択します。このモデルは信頼できるベースラインとして機能します。その後、別のモデルを選択して、フォールバックモデルと比較して精度を向上させたり、コストを削減したりできます。フォールバックモデルはアンカーとして機能し、ルーティング基準はレスポンス品質の違いに基づいて他のモデルに切り替える時期を決定します。
レスポンス品質の違い
レスポンス品質の違いは、フォールバックモデルと他のモデルのレスポンスの差異を測定します。値が小さいほど、レスポンスが類似していることを示します。値が大きいほど、フォールバックモデルと他のモデルのレスポンスに大きな違いがあることを示します。
例えば、レスポンス品質の差が 10% の場合、フォールバックモデル Claude Haiku3 のレスポンス品質が 10% の場合、ルーターは別のモデル (Claude Sonnet3 など) に切り替わります。これは、そのレスポンスが Claude Haiku3 のレスポンスよりも 10% 優れている場合に限られます。
インテリジェントなプロンプトルーティングの仕組み
-
モデルの選択とルーターの設定
アプリケーションに使用するモデルのファミリーを選択します。デフォルトのプロンプトルーターを使用している場合は、Anthropic または Meta ファミリーのモデルから選択できます。設定済みのプロンプトルーターを使用している場合は、追加のモデルから選択し、ルーティング条件を設定できます。詳細については、「インテリジェントなプロンプトルーティングの使用方法」を参照してください。
-
受信リクエストの分析
受信リクエストごとに、システムはプロンプトを分析してその内容とコンテキストを把握します。
-
レスポンス品質の予測
Amazon Bedrock は、プロンプトに基づいて、選択されたファミリー内の指定された各モデルのレスポンス品質を予測します。プロンプトルーターを設定した場合、レスポンス品質の違いであるルーティング条件が考慮され、条件が満たされない場合は、指定されたフォールバックモデルにリクエストがルーティングされます。
-
モデルの選択とリクエストの転送
レスポンス品質の予測に基づいて、Amazon Bedrock は特定のリクエストのレスポンス品質とコストの最適な組み合わせを提供するモデルを動的に選択します。その後、リクエストは選択したモデルに転送され、処理されます。
-
レスポンス処理
選択したモデルからのレスポンスが取得され、ユーザーに返されます。レスポンスには、リクエストの処理に使用されたモデルに関する情報が含まれます。
インテリジェントなプロンプトルーティングの使用方法
インテリジェントなプロンプトルーティングを開始するには、Amazon Bedrock コンソール、AWS CLI、または AWS SDK を使用します。
注記
インテリジェントなプロンプトルーティングを最大限に利用するには、定期的にパフォーマンスを確認して新しいモデルを活用する必要があります。使用状況を最適化するには、使用可能なパフォーマンスとコストのメトリクスをモニタリングします。
以降のセクションでは、コンソールと CLI からこの機能を使用する方法を示します。プロンプトルーターを設定した後、Amazon Bedrock は「インテリジェントなプロンプトルーティングの仕組み」で説明されているステップを実行して、選択したルーターのモデルのいずれかからレスポンスを生成します。