レイテンシーのモデル推論を最適化する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

レイテンシーのモデル推論を最適化する

注記

レイテンシー最適化推論機能は のプレビューリリースでありAmazon Bedrock、変更される可能性があります。

の基盤モデルのレイテンシー最適化推論Amazon Bedrockは、AI アプリケーションの応答時間を短縮し、応答性を向上させます。Amazon Nova Pro の最適化バージョン、Anthropic の Claude 3.5 Haiku モデルMeta の Llama 3.1 405B モデルと 70B モデルは、正解率を損なうことなく、レイテンシーを大幅に短縮します。

レイテンシー最適化機能の利用には追加のセットアップやモデルのファインチューニングは必要なく、レスポンス時間を短縮して既存のアプリケーションを直ちに強化できます。Amazon Bedrock ランタイム API を呼び出す際に、「Latency」パラメータを「optimized」に設定できます。呼び出しオプションとして「標準」を選択した場合、リクエストは標準推論で処理されます。デフォルトでは、すべてのリクエストは「標準」経由でルーティングされます。

"performanceConfig" : { "latency" : "standard | optimized" }

モデルのレイテンシー最適化の使用クォータに達すると、リクエストの処理は標準レイテンシーで試行されます。このような場合、リクエストには標準レイテンシー料金が適用されます。サービスされるリクエストのレイテンシー設定は、API レスポンスとAWS CloudTrailログに表示されます。また、「model-id+latency-optimized」のAmazon CloudWatchログにレイテンシー最適化リクエストのメトリクスを表示することもできます。

レイテンシー最適化推論は、Meta の Llama 3.1 70B および 405B、Anthropic の Claude 3.5 Haiku で、米国東部 (オハイオ) リージョンおよび米国西部 (オレゴン) リージョンにおいて、クロスリージョン推論を介して利用できます。

レイテンシー最適化推論は、Amazon Nova Pro で、米国東部 (バージニア北部) リージョン、米国東部 (オハイオ) リージョン、米国西部 (オレゴン) リージョンにおいて、クロスリージョン推論を介して利用できます。

料金の詳細については、料金ページを参照してください。

注記

現時点では Llama 3.1 405B のレイテンシー最適化推論は、入力トークンと出力トークンの合計数が最大 11K までのリクエストをサポートしています。トークン数が多いリクエストの場合、標準モードにフォールバックします。

次の表は、レイテンシーの最適化をサポートする推論プロファイルを示しています。

プロバイダー モデル モデル ID クロスリージョン推論プロファイルのサポート
Amazon Nova Pro amazon.nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B 指示 meta.llama3-1-405b-instruct-v1:0

us-east-2

Meta Llama 3.1 70B Instruct meta.llama3-1-70b-instruct-v1:0

us-east-2

us-west-2

推論プロファイルの詳細については、「推論プロファイルでサポートされているリージョンおよびモデル」を参照してください。