Amazon Bedrock での推論の仕組み

モデルに入力を送信すると、モデルはその後に続く可能性のあるトークンのシーケンスを予測し、そのシーケンスを出力として返します。Amazon Bedrock により、選択した基盤モデルで推論を実行できるようになります。推論を実行する場合は、次の入力を提供します。

プロンプト — レスポンスを生成するためにモデルに提供される入力。プロンプトの書き方については、「プロンプトエンジニアリングの概念」を参照してください。プロンプトインジェクション攻撃の対策については、「プロンプトインジェクションのセキュリティ」を参照してください。
モデル – プロンプトで推論を実行するようにモデルにリクエストします。選択したモデルによって、スループットのレベルも指定されます。つまり、処理できる入出力トークンの数とレートが定義されます。次のタイプのモデルにリクエストを行うことができます。
- ベースモデル – 推論の実行に使用する基盤モデル。リクエストは 1 つの AWS リージョンに送信されます。モデル ID については、「Amazon Bedrock でサポートされている基盤モデル」を参照してください。Amazon Bedrock で使用できる基盤モデルの詳細については、「Amazon Bedrock 基盤モデルの情報」を参照してください。
- 推論プロファイル – 推論の実行に使用する基盤モデル。リクエストは複数の AWS リージョンのモデルに対して行われます。推論プロファイルについては、「推論プロファイルでサポートされているリージョンおよびモデル」を参照してください。
  
  注記
  モデルは、リージョンと API メソッドによって、ベースモデルと推論プロファイルの可用性が異なります。詳細については、「Amazon Bedrock でサポートされている基盤モデル」、および「基盤モデルリファレンス」の個々のモデルのページを参照してください。
- プロビジョンドスループット – 専用スループットを購入した基盤モデル。詳細については、Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やすを参照してください。
- カスタムモデル – モデルのカスタマイズによって重みが変更された基盤モデル。詳細については、「モデルをカスタマイズしてユースケースのパフォーマンスを向上させる」を参照してください。
推論パラメータ — モデルレスポンスを制限したり影響を与えたりするように調整できる値のセット。推論パラメータの詳細については、「推論パラメータでレスポンスの生成に影響を与える」および「Inference request parameters and response fields for foundation models」を参照してください。

異なる AWS リージョンでのモデルの呼び出し

モデルを呼び出すときは、そのモデルを呼び出す AWS リージョンを選択します。実行できるリクエストの頻度とサイズに対応するクォータは、リージョンによって異なります。これらのクォータは、「Amazon Bedrock サービスクォータ」で次のクォータを検索することで確認できます。

${Model} の 1 分あたりのオンデマンドモデル推論のリクエスト数
${model} の 1 分あたりのオンデマンド InvokeModel のトークン数

基盤モデル自体ではなく、推論プロファイルを呼び出すこともできます。推論プロファイルは、モデルと、その推論プロファイルによるモデル呼び出しリクエストのルーティング先となる 1 つ以上のリージョンを定義します。複数のリージョンを含む推論プロファイルを呼び出すことで、スループットを向上させることができます。詳細については、「クロスリージョン推論によりスループットを向上させる」を参照してください。推論プロファイルで実行できるリクエストの頻度とサイズに対応するクォータを確認するには、「Amazon Bedrock サービスクォータ」で次のクォータを検索します。

${Model} の 1 分あたりのクロスリージョン InvokeModel のリクエスト数
${Model} の 1 分あたりのクロスリージョン InvokeModel のトークン数
${Model} の 1 分あたりのグローバルクロスリージョン InvokeModel のリクエスト数
${Model} の 1 分あたりのグローバルクロスリージョン InvokeModel のトークン数

リージョンへのリクエストは、同じ親リージョンを共有するローカルゾーンから提供される場合があります。例えば、米国東部 (バージニア北部) (us-east-1) へのリクエストは、米国アトランタ (us-east-1-atl-2a) など、それに関連付けられている任意のローカルゾーンから提供される場合があります。

クロスリージョン推論の使用時にも同じ原則が適用されます。例えば、米国の Anthropic Claude 3 Haiku 推論プロファイルへのリクエストは、親リージョンが米国シアトル (us-west-2-sea-1a) など米国にある任意のローカルゾーンから提供される場合があります。新しいローカルゾーンは、AWS に追加されると、対応するクロスリージョン推論エンドポイントにも追加されます。

ローカルエンドポイントとそれらが関連付けられている親リージョンのリストを確認するには、「AWS ローカルゾーンの場所」を参照してください。

Amazon Bedrock でクロスリージョン推論プロファイルを呼び出すと、リクエストはソースリージョンから発信され、そのプロファイルで定義されている送信先リージョンの 1 つに自動的にルーティングされて、パフォーマンスが最適化されます。グローバルクロスリージョン推論プロファイルの送信リージョンには、商用リージョンがすべて含まれます。

特定のモデルに対するグローバルクロスリージョン推論プロファイルは、AWS で追加される商用リージョン (リクエストを処理できるリージョン) の数の増加に伴い、時間の経過とともに変化する可能性があります。ただし、推論プロファイルが地域 (米国、欧州、アジア太平洋など) に関連付けられている場合、その送信先リージョンリストは変更されません。AWS では、新しいリージョンを組み込む新しい推論プロファイルが作成される場合があります。これらの推論プロファイルを使用するようにシステムを更新するには、セットアップ内の ID を新しいものに変更します。

注記

クロスリージョン推論プロファイルの送信先リージョンには、オプトインリージョンを含めることができます。オプトインリージョンは、AWS アカウントまたは組織レベルで明示的に有効にする必要があるリージョンです。詳細については、「アカウントで AWS リージョンを有効化または無効化する」を参照してください。クロスリージョン推論プロファイルを使用する場合、プロファイル内の任意の送信先リージョンをアカウントでオプトインしなかった場合でも、推論リクエストはその送信先リージョンにルーティングされる可能性があります。

サービスコントロールポリシー (SCP) と AWS Identity and Access Management (IAM) ポリシーは連携して、クロスリージョン推論が許可されている場所を制御します。SCP を使用すると、Amazon Bedrock で推論に使用できるリージョンを制御でき、IAM ポリシーを使用すると、推論を実行するためのアクセス許可を持つユーザーまたはロールを定義できます。クロスリージョン推論プロファイルの任意の送信先リージョンが SCP でブロックされている場合、他のリージョンが許可されていてもリクエストは失敗します。クロスリージョン推論による効率的なオペレーションを確保するために、選択した推論プロファイルに含まれるすべての送信先リージョンで、必要なすべての Amazon Bedrock 推論アクション (bedrock:InvokeModel* や bedrock:CreateModelInvocationJob など) を許可するように SCP と IAM ポリシーを更新できます。詳細については、「https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/Enabling Amazon Bedrock cross-Region inference in multi-account environments」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

さまざまな推論方法

推論パラメータ