推論プロファイルを使用してモデル呼び出しリソースを設定する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論プロファイルを使用してモデル呼び出しリソースを設定する

推論プロファイルとは、モデルと、その推論プロファイルによるモデル呼び出しリクエストのルーティング先となる 1 つ以上のリージョンを定義する Amazon Bedrock のリソースです。推論プロファイルは次のタスクで使用できます。

  • 使用状況メトリクスを追跡する – CloudWatch ログを設定し、アプリケーション推論プロファイルを使用してモデル呼び出しリクエストを送信して、モデル呼び出しの使用状況メトリクスを収集します。推論プロファイルに関する情報を表示するときにこれらのメトリクスを確認し、メトリクスを使用して決定事項を通知することができます。CloudWatch ログの設定方法の詳細については、「CloudWatch Logs と Amazon S3 を使用してモデル呼び出しをモニタリングする」を参照してください。

  • タグを使用してコストをモニタリングする – オンデマンドのモデル呼び出しリクエストを送信するときに、アプリケーション推論プロファイルにタグをアタッチしてコストを追跡します。コスト配分にタグを使用する方法の詳細については、「AWS Billing 請求ユーザーガイド」の「AWS コスト配分タグを使用したコストの整理と追跡」を参照してください。

  • クロスリージョン推論 – 複数の AWS リージョンを含む推論プロファイルを使用してスループットを向上させます。推論プロファイルは、これらのリージョンにモデル呼び出しリクエストを分散して、スループットとパフォーマンスを向上させます。クロスリージョン推論の詳細については、「クロスリージョン推論によりスループットを向上させる」を参照してください。

Amazon Bedrock には、次のタイプの推論プロファイルが用意されています。

  • クロスリージョン (システム定義) 推論プロファイル – Amazon Bedrock で事前定義され、モデルへのリクエストのルーティング先となる複数のリージョンを含む推論プロファイル。

  • アプリケーション推論プロファイル – コストとモデルの使用状況を追跡するためにユーザーが作成する推論プロファイル。モデル呼び出しリクエストを 1 つのリージョンまたは複数のリージョンにルーティングする推論プロファイルを作成できます。

    • 1 つのリージョンでモデルのコストと使用状況を追跡する推論プロファイルを作成するには、推論プロファイルによるリクエストのルーティング先となるリージョンで基盤モデルを指定します。

    • 複数のリージョンでモデルのコストと使用状況を追跡する推論プロファイルを作成するには、モデルと、推論プロファイルによるリクエストのルーティング先となるリージョンを定義するクロスリージョン (システム定義) 推論プロファイルを指定します。

推論プロファイルを以下の機能で使用すると、リクエストを複数のリージョンにルーティングしたり、これらの機能を使用して行われた呼び出しリクエストの使用状況とコストを追跡したりできます。

推論プロファイルを使用する料金は、推論プロファイルを呼び出すリージョンでのモデルの料金に基づいて計算されます。料金に関する詳細については、「Amazon Bedrock の料金」を参照してください。

クロスリージョン推論プロファイルで提供できるスループットの詳細については、「クロスリージョン推論によりスループットを向上させる」を参照してください。