Amazon Bedrock のクォータ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock のクォータ

AWS アカウント には、Amazon Bedrock の制限と呼ばれるデフォルトのクォータがあります。Amazon Bedrock のサービスクォータを表示するには、次のいずれかを実行します。

サービスのパフォーマンスを維持し、Amazon Bedrock の適切な使用を確保するために、アカウントに割り当てられたデフォルトのクォータは、リージョンの要因、支払い履歴、不正使用、および/またはクォータ引き上げリクエストの承認に応じて更新される場合があります。

注記

パフォーマンスを維持し、Amazon Bedrock の適切な使用を確保するために、 は、1 分あたりのリクエスト数 (RPM)、1 分あたりのトークン数 (TPM)、1 日あたりのトークン数 (TPD) に対するアカウントのクォータに従って使用量 AWS を制限します。1 日あたりのデフォルトのトークン制限は、1 分あたりのトークン * 24 * 60 です。ただし、新しい AWS アカウント では 1 日あたりのトークンのクォータが削減されました。次のセクションで説明するように、クォータの引き上げをリクエストできます。

アカウントの 1 日あたりのトークン数の制限を表示するには、 AWS Management Console Service Quotas ページで Amazon Bedrock を選択し、${MODEL} の「Model invocation max tokens per day」を検索します。

Amazon Bedrock クォータの引き上げをリクエストする

アカウントのクォータ引き上げをリクエストする手順は、Amazon Bedrock サービスクォータのクォータテーブルの 調整可能な列の値によって異なります。

  • クォータが「はい」とマークされている場合は、「Service Quotas ユーザーガイド」の「クォータの引き上げをリクエストする」の手順に従ってクォータを調整できます。 Service Quotas

  • どのモデルでも、次のクォータの引き上げをリクエストできます。

    • ${model} のクロスリージョン InvokeModel トークン/分

    • ${model} のクロスリージョン InvokeModel リクエスト/分

    • ${model} のオンデマンド InvokeModel トークン/分

    • ${model} のオンデマンド InvokeModel リクエスト/分

    • ${model} の 1 日あたりのモデル呼び出しの最大トークン数

    これらのクォータの任意の組み合わせの引き上げをリクエストするには、Service Quotas InvokeModelトークンの 1 分あたりの引き上げをリクエストします。その後、サポートチームが連絡し、他の 4 つのクォータも引き上げるオプションを提供します。

    注記

    圧倒的な需要により、既存のクォータ割り当てを消費するトラフィックを生成するお客様に優先権が与えられます。この条件を満たしていない場合、リクエストは拒否されることがあります。

4 AnthropicClaude つのモデルのトークンのバーンダウンレート

非標準トークンのバーンダウン率を持つモデルの推論クォータ。

Amazon Bedrock モデルの推論クォータは、RPM (1 分あたりのリクエスト数) と TPM (1 分あたりのトークン数) の 2 つのディメンションで測定されます。クォータは、最初に何が起こるかに応じて、どのディメンションでもヒットできます。

バーンダウンレートは、入力トークンと出力トークンをスロットリングシステムによるトークンクォータ使用量に変換する比率です。この比率は、入力トークンと出力トークンがトークンクォータにカウントされるレートを表します。

ほとんどのモデルでは、4 つのモデルを除き、1 つの入力トークンまたは 1 つの出力トークンごとに 1 Anthropic Claude トークンのバーンダウンレートがあります。4 AnthropicClaudeつのバーンダウン率については、以下の表を参照してください。Amazon Bedrock でのトークンの使用と料金の詳細については、「Amazon Bedrock の料金」を参照してください。

API リクエストで指定されたmax_tokens値を使用して、リクエストを受け取ったときのトークンクォータに対する出力バーンダウンを見積もります。リクエストの完了時に、出力バーンダウンを実際の使用量に調整します。早期スロットリングを回避するには、予想される出力トークンに近いmax_tokens値を選択します。

モデルトークンの非標準バーンダウン率

モデル

入力トークン

出力トークン

Claude Opus 4

入力トークンごとに 1 トークン

出力トークンあたり 5 トークン

Claude Sonnet 4

入力トークンごとに 1 トークン

出力トークンあたり 5 トークン