予約済み階層 Priority 階層標準階層 Flex 階層サービス階層機能の使用

パフォーマンスとコストを最適化するためのサービス階層

Amazon Bedrock には、モデル推論用の 4 つのサービス階層、リザーブド、Priority、Standard、Flex があります。サービス層を使用すると、可用性、コスト、パフォーマンスを最適化できます。

予約済み階層

リザーブド階層は、ダウンタイムを許容できないミッションクリティカルなアプリケーションの優先コンピューティングキャパシティを予約する機能を提供します。ワークロードの正確な要件と制御コストに合わせて、1 tokens-per-minuteを柔軟に割り当てることができます。アプリケーションが予約した容量よりも多くのtokens-per-minute容量を必要とする場合、サービスは自動的に標準階層にオーバーフローし、中断のないオペレーションを確保します。リザーブド階層は、モデルレスポンスの 99.5% の稼働時間を目標とします。お客様は 1 か月または 3 か月間キャパシティを予約できます。お客様は 1 分あたり 1K000 トークンあたりの固定料金を支払い、毎月請求されます。 tokens-per-minute

リザーブド階層には、次の最小容量要件があります。

1 tokens-per-minute (TPM): 100,000
tokens-per-minute (TPM): 10,000

リザーブド階層にアクセスするには、AWS アカウントチームにお問い合わせください。

重要

リザーブド階層容量のサイズを設定するときは、1 tokens-per-minuteInputTokenCountとの両方が含まれていることに注意してくださいCacheWriteInputTokens。プロンプトキャッシュを使用する場合は、Amazon CloudWatch で両方のメトリクスを合計して、必要な予約を正確に見積もる必要があります。トークンがクォータにカウントされる方法の詳細については、「」を参照してくださいトークンクォータ管理について。

注記

請求は、 AWS アカウントマネージャーの助けを借りてリザーブド階層の予約を削除するまで続行されます。

Priority 階層

Priority 階層は、標準のオンデマンド料金よりも料金プレミアムで最速の応答時間を提供します。これは、24X7 365 日のキャパシティ予約を必要としない顧客向けビジネスワークフローを持つミッションクリティカルなアプリケーションに最適です。Priority 階層には事前予約は必要ありません。リクエストレベルの優先順位付けを有効にするには、「service_tier」オプションパラメータを「priority」に設定するだけです。Priority 階層リクエストは、Standard 階層リクエストと Flex 階層リクエストよりも優先されます。

標準階層

標準階層は、コンテンツ生成、テキスト分析、日常的なドキュメント処理などの日常的な AI タスクに一貫したパフォーマンスを提供します。デフォルトでは、「service_tier」パラメータがない場合、すべての推論リクエストは標準階層にルーティングされます。標準階層で提供される推論リクエストの「service_tier」オプションパラメータを「default」に設定することもできます。

Flex 階層

より長い処理時間を処理できるワークロードの場合、Flex 階層は料金割引のための費用対効果の高い処理を提供します。これにより、モデル評価、コンテンツ要約、エージェントワークフローなどのワークロードのコストを最適化できます。Flex 階層で提供される推論リクエストの「service_tier」オプションパラメータを「flex」に設定し、料金割引を利用できます。

サービス階層機能の使用

サービス階層機能にアクセスするには、Amazon Bedrock ランタイム API を呼び出すときに、「service_tier」オプションパラメータを「reserved」、「priority」、「default」、または「flex」に設定します。


"service_tier" : "reserved | priority | default | flex"

モデルのオンデマンドクォータは、「優先度」、「デフォルト」、「柔軟性」の各サービス階層で共有されます。「リザーブド」階層のキャパシティ予約は、オンデマンドクォータとは別のものです。サービス対象のリクエストのサービス階層設定は、API レスポンスと AWS CloudTrail Events に表示されます。ModelId、ServiceTier、ResolvedServiceTier の Amazon CloudWatch Metrics でサービス階層メトリクスを表示することもできます。ここで、ResolvedServiceTier はリクエストを処理した実際の階層を表示します。

料金の詳細については、料金ページを参照してください。

モデルを一目で確認し、関心のあるモデルを選択して、モデルがサポートするサービス層を確認してください。

サービス階層へのアクセスを制御するには、「」を参照してください。サービス階層へのアクセスを制御する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

容量とパフォーマンス

バッチ推論