Amazon Bedrock のインテリジェントなプロンプトルーティングを理解する - Amazon Bedrock

Amazon Bedrock のインテリジェントなプロンプトルーティングを理解する

Amazon Bedrock Intelligent Prompt Routing は、単一のサーバーレスエンドポイントを提供して、同じモデルファミリー内のさまざまな基盤モデルの間でリクエストを効率的にルーティングします。リクエストごとに各モデルのレスポンス品質を動的に予測し、最適なレスポンス品質のモデルにリクエストをルーティングできます。これにより、レスポンス品質とコストの両方を最適化できます。

インテリジェントなプロンプトルーティング向けにサポートされているリージョンとモデル

インテリジェントプロンプトルーティングは、次のモデルでサポートされています。

プロバイダー モデル 基盤モデルをサポートするリージョン 推論プロファイルをサポートするリージョン
Amazon Nova Lite

us-east-1

us-gov-west-1

us-east-1

us-east-2

us-west-2

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

Amazon Nova Pro

us-east-1

us-gov-west-1

us-east-1

us-east-2

us-west-2

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

Anthropic Claude 3.5 Haiku

us-west-2

us-east-1

us-east-2

us-west-2

Anthropic Claude 3.5 Sonnet

us-east-1

us-west-2

us-gov-west-1

ap-northeast-1

ap-northeast-2

eu-central-1

us-east-1

us-east-2

us-west-2

us-gov-east-1

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

Anthropic Claude 3.5 Sonnet v2

us-west-2

ap-southeast-2

us-east-1

us-east-2

us-west-2

ap-northeast-1

ap-south-1

ap-southeast-2

eu-west-3

Anthropic Claude 3 Haiku

us-east-1

us-west-2

us-gov-west-1

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-east-2

us-west-2

us-gov-east-1

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

Meta Llama 3.1 70B Instruct

us-west-2

us-east-1

us-east-2

us-west-2

Meta Llama 3.1 8B Instruct

us-west-2

us-east-1

us-east-2

us-west-2

Meta Llama 3.2 11B Instruct

N/A

us-east-1

us-east-2

us-west-2

Meta Llama 3.2 90B Instruct

N/A

us-east-1

us-east-2

us-west-2

Meta Llama 3.3 70B Instruct

us-east-2

us-east-1

us-east-2

us-west-2

利点

  • レスポンス品質とコストの最適化: プロンプトをさまざまな基盤モデルにルーティングして、最低のコストで最良のレスポンス品質を実現します。

  • 管理の簡素化: 複雑なオーケストレーションロジックが不要になります。

  • 将来への対応: 利用可能になった新しいモデルを組み込みます。

デフォルトおよび設定済みのプロンプトルーター

インテリジェントなプロンプトルーティングを使用するときは、Amazon Bedrock が提供するデフォルトのプロンプトルーターを使用することも、独自のプロンプトルーターを設定することもできます。

デフォルトのプロンプトルーターは、Amazon Bedrock が提供する事前設定されたルーティングシステムです。これらのルーターには事前定義された設定が付属し、特定の基盤モデルですぐ使用できるように設計されています。ルーティング設定を行う必要がなく、簡単ですぐに使用できるソリューションを提供します。インテリジェントなプロンプトルーティングを開始するときは、Amazon Bedrock が提供するデフォルトのルーターを試すことをお勧めします。プレビュー中に、Anthropic および Meta ファミリーで一部のモデルを使用することを選択できます。

設定済みのプロンプトルーターを使用すると、特定のニーズや好みに合わせた独自のルーティング設定を定義できます。これらは、ルーティング基準、リクエストのルーティング方法、使用するモデルをより細かく制御する必要があるときに適しています。設定済みルーターでは、レスポンス品質メトリクスとユースケースに基づいて最適化できます。デフォルトのルーターを試したら、使用するアプリケーションに適した独自のルーターを設定し、プレイグラウンドのレスポンス品質を評価し、要件を満たしている場合は本番稼働用アプリケーションに使用できます。

考慮事項と制限

Amazon Bedrock でのインテリジェントなプロンプトルーティングに関する考慮事項と制限事項を次に示します。

  • インテリジェントプロンプトルーティングは、英語プロンプトにのみ最適化されています。

  • インテリジェントプロンプトルーティングでは、アプリケーション固有のパフォーマンスデータに基づいてルーティングの決定やレスポンスを調整できません。

  • インテリジェントプロンプトルーティングは、独自または特殊なユースケースに最適なルーティングを提供するとは限りません。ルーティングの有効性は、初期トレーニングデータによって異なります。

プロンプトルーターの基準とフォールバックモデル

プロンプトルーターを設定するときは、ルーティング条件を指定できます。ルーティング条件は、レスポンス品質の差に基づいてリクエストを処理するために選択するモデルを決定するために使用されます。この基準を使用して、フォールバックモデルのレスポンスが他のモデルのレスポンスにどれだけ近いかを判断します。

フォールバックモデル

リクエストに適したフォールバックモデルを選択します。このモデルは信頼できるベースラインとして機能します。その後、別のモデルを選択して、フォールバックモデルと比較して精度を向上させたり、コストを削減したりできます。フォールバックモデルはアンカーとして機能し、ルーティング基準はレスポンス品質の違いに基づいて他のモデルに切り替える時期を決定します。

レスポンス品質の違い

レスポンス品質の違いは、フォールバックモデルと他のモデルのレスポンスの差異を測定します。値が小さいほど、レスポンスが類似していることを示します。値が大きいほど、フォールバックモデルと他のモデルのレスポンスに大きな違いがあることを示します。

例えば、レスポンス品質の差が 10% の場合、フォールバックモデル Claude Haiku3 のレスポンス品質が 10% の場合、ルーターは別のモデル (Claude Sonnet3 など) に切り替わります。これは、そのレスポンスが Claude Haiku3 のレスポンスよりも 10% 優れている場合に限られます。

インテリジェントなプロンプトルーティングの仕組み

  1. モデルの選択とルーターの設定

    アプリケーションに使用するモデルのファミリーを選択します。デフォルトのプロンプトルーターを使用している場合は、Anthropic または Meta ファミリーのモデルから選択できます。設定済みのプロンプトルーターを使用している場合は、追加のモデルから選択し、ルーティング条件を設定できます。詳細については、「インテリジェントなプロンプトルーティングの使用方法」を参照してください。

  2. 受信リクエストの分析

    受信リクエストごとに、システムはプロンプトを分析してその内容とコンテキストを把握します。

  3. レスポンス品質の予測

    Amazon Bedrock は、プロンプトに基づいて、選択されたファミリー内の指定された各モデルのレスポンス品質を予測します。プロンプトルーターを設定した場合、レスポンス品質の違いであるルーティング条件が考慮され、条件が満たされない場合は、指定されたフォールバックモデルにリクエストがルーティングされます。

  4. モデルの選択とリクエストの転送

    レスポンス品質の予測に基づいて、Amazon Bedrock は特定のリクエストのレスポンス品質とコストの最適な組み合わせを提供するモデルを動的に選択します。その後、リクエストは選択したモデルに転送され、処理されます。

  5. レスポンス処理

    選択したモデルからのレスポンスが取得され、ユーザーに返されます。レスポンスには、リクエストの処理に使用されたモデルに関する情報が含まれます。

インテリジェントなプロンプトルーティングの使用方法

インテリジェントなプロンプトルーティングを開始するには、Amazon Bedrock コンソール、AWS CLI、または AWS SDK を使用します。

注記

インテリジェントなプロンプトルーティングを最大限に利用するには、定期的にパフォーマンスを確認して新しいモデルを活用する必要があります。使用状況を最適化するには、使用可能なパフォーマンスとコストのメトリクスをモニタリングします。

以降のセクションでは、コンソールと CLI からこの機能を使用する方法を示します。プロンプトルーターを設定した後、Amazon Bedrock は「インテリジェントなプロンプトルーティングの仕組み」で説明されているステップを実行して、選択したルーターのモデルのいずれかからレスポンスを生成します。

console

AWS マネジメントコンソール からインテリジェントなプロンプトルーティングを使用するには:

  1. Amazon Bedrock コンソールの [プロンプトルーター] ハブに移動します。AWS 認証情報を使用して、コンソールにログインします。

  2. 使用するモデルファミリーを選択します。機能を初めて使用している場合は、デフォルトのプロンプトルーターを試すことができます。プレビュー中は、Anthropic または Meta ファミリーのモデルから選択できます。その後、プレイグラウンドを開き、プロンプトを試すことができます。

    注記

    同じファミリー内でちょうど 2 つのモデルを選択する必要があります。

  3. デフォルトのルーターを試した後、ルーターを設定できます。ルーターの一意の名前とオプションの説明を指定する必要があります。

  4. プロンプトをさまざまなモデルにルーティングするためのルーティングルールを定義します。ルーティングのモデル、ルーティング条件、およびルーティング条件が満たされない場合に使用するフォールバックモデルを指定します。

  5. プレイグラウンドを開き、さまざまなプロンプトを試して、プロンプトルーターのパフォーマンスをモニタリングできるようになりました。プロンプトのルーティング方法と各モデルのパフォーマンスを分析することで、必要に応じてルーティング基準とモデルを調整し、パフォーマンスとコストを最適化できます。

API

AWS CLI を使用してインテリジェントなプロンプトルーティングを使用するには:

  1. デフォルトのプロンプトルーターを試した後、CreatePromptRouter API または create-prompt-router CLI コマンドを使用して、インテリジェントなプロンプトルーティングを処理できるルーターを作成できます。

    次のコマンドは、プロンプトルーターを作成する例を示しています。ここで、

    • <router-name> はルーターの一意の名前です。

    • <region> は、ルーターを作成する AWS リージョン です。

    • <modelA><modelB> は、ルーティング用に選択するモデルです。例えば、anthropic.claude-3-5-sonnet-20240620-v1:0

    aws bedrock create-prompt-router \ --prompt-router-name <router-name> \ --models '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelA>"}]' \ --fallback-model '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelB>"}]' \ --routing-criteria '{"responseQualityDifference": 0.5}'
  2. AWS CLI を使用して、インテリジェントなプロンプトルーターにプロンプトを送信します。ルーターは各モデルのレスポンス品質を予測し、最適なレスポンス品質でモデルにリクエストをルーティングします。

  3. リクエストに対するレスポンスを確認します。これには、使用されたモデルとルーティング条件に関する情報が含まれます。

  4. プロンプトルーターを操作するときは、以下の追加の API オペレーションを使用することもできます。