レイテンシーのモデル推論を最適化する

注記

レイテンシー最適化推論機能はのプレビューリリースであり Amazon Bedrock 、変更される可能性があります。

の基盤モデルのレイテンシー最適化推論 Amazon Bedrock は、AI アプリケーションの応答時間を短縮し、応答性を向上させます。Amazon Nova Pro の最適化バージョン、Anthropic の Claude 3.5 Haiku モデル、Meta の Llama 3.1 405B モデルと 70B モデルは、正解率を損なうことなく、レイテンシーを大幅に短縮します。

レイテンシー最適化機能の利用には追加のセットアップやモデルのファインチューニングは必要なく、レスポンス時間を短縮して既存のアプリケーションを直ちに強化できます。Amazon Bedrock ランタイム API を呼び出す際に、「Latency」パラメータを「optimized」に設定できます。呼び出しオプションとして「標準」を選択した場合、リクエストは標準推論で処理されます。デフォルトでは、すべてのリクエストは「標準」経由でルーティングされます。


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

モデルのレイテンシー最適化の使用クォータに達すると、リクエストの処理は標準レイテンシーで試行されます。このような場合、リクエストには標準レイテンシー料金が適用されます。サービス対象のリクエストのレイテンシー設定は、API レスポンスと AWS CloudTrail ログに表示されます。また、「model-id+latency-optimized」の Amazon CloudWatch ログにレイテンシー最適化リクエストのメトリクスを表示することもできます。

レイテンシー最適化推論は、Meta の Llama 3.1 70B および 405B、Anthropic の Claude 3.5 Haiku で、米国東部 (オハイオ) リージョンおよび米国西部 (オレゴン) リージョンにおいて、クロスリージョン推論を介して利用できます。

レイテンシー最適化推論は、Amazon Nova Pro で、米国東部 (バージニア北部) リージョン、米国東部 (オハイオ) リージョン、米国西部 (オレゴン) リージョンにおいて、クロスリージョン推論を介して利用できます。

料金の詳細については、料金ページを参照してください。

注記

現時点では Llama 3.1 405B のレイテンシー最適化推論は、入力トークンと出力トークンの合計数が最大 11K までのリクエストをサポートしています。トークン数が多いリクエストの場合、標準モードにフォールバックします。

次の表は、レイテンシーの最適化をサポートする推論プロファイルを示しています。

プロバイダー	モデル	モデル ID	クロスリージョン推論プロファイルのサポート
Amazon	Nova Pro	amazon.nova-pro-v1:0	us–east–1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B 指示	meta.llama3-1-405b-instruct-v1:0	us-east-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-east-2 us-west-2

推論プロファイルの詳細については、「推論プロファイルでサポートされているリージョンおよびモデル」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

推論の推論

OpenAI APIs を使用した推論