トークンクォータ管理について max_tokens パラメータの影響について max_tokens パラメータの最適化

Amazon Bedrock でのトークンのカウント方法

モデル推論を実行する場合、使用する Amazon Bedrock モデルに応じて処理できるトークンの数にはクォータがあります。トークンのクォータに関連する次の用語を確認してください。

用語	定義
`InputTokenCount`	キャッシュされたトークンを除く、モデルによって処理された入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。クォータに対する入力トークンの合計消費量を確認するには、を合計します`InputTokenCount + CacheWriteInputTokens`。
`OutputTokenCount`	リクエストに応じてモデルにより生成されたトークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。
`CacheReadInputTokens`	モデルによって再処理されるのではなく、キャッシュから正常に取得された入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。この値は、プロンプトキャッシュを使用しない場合は 0 になります。
`CacheWriteInputTokens`	キャッシュに正常に書き込まれた入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。この値は、プロンプトキャッシュを使用しない場合は 0 になります。
1 分あたりのトークン数 (TPM)	1 分間で使用できるトークンの数 (入力と出力の両方を含む) について、モデルレベルで AWS によって設定されたクォータ。
1 日あたりのトークン数 (TPD)	1 日に使用できるトークンの数 (入力と出力の両方を含む) のモデルレベルで AWS によって設定されたクォータ。デフォルトでは、この値は TPM x 24 x 60 です。ただし、新しい AWS アカウントではクォータが削減されました。
`max_tokens`	モデルが生成できる出力トークンの最大数を設定するためにリクエストで指定するパラメータ。
バーンダウンレート	入力トークンと出力トークンがスロットリングシステムのトークンクォータ使用量に変換されるレート。

Anthropic Claude モデルバージョン 4.8 のバーンダウンレートは、出力トークンに対して 15 倍です (1 つの出力トークンはクォータから 15 個のトークンを消費します）。他のすべての Anthropic モデルバージョン 3.7 以降では、出力トークンのバーンダウンは 5 倍です (1 つの出力トークンはクォータから 5 つのトークンを消費します）。

他のすべてのモデルの場合、バーンダウンレートは 1:1 になります (1 つの出力トークンはクォータから 1 つのトークンを消費します)。

トークンクォータ管理について

リクエストを行うと、TPM および TPD クォータからトークンが差し引かれます。計算は次の段階で行われます。

リクエストの開始時に – 次の合計がクォータから差し引かれます。クォータを超えると、リクエストはスロットリングされます。
```
Total input tokens + max_tokens
```
処理中 – リクエストによって消費されたクォータは、生成された出力トークンの実際の数を考慮して定期的に調整されます。
リクエストの終了時 – リクエストによって消費されたトークンの合計数は次のように計算され、未使用のトークンがあればクォータに補充されます。
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
CacheReadInputTokens この計算には寄与せず、クォータにもカウントされません。プロンプトキャッシュを使用しない場合、 CacheWriteInputTokensとの両方CacheReadInputTokensが 0 になります。

注記

実際のトークン使用量に対してのみ請求されます。

例えば、Anthropic Claude Sonnet 4 を使用して、1,000 個の入力トークンを含むリクエストを送信し、100 個のトークンに相当する応答を生成する場合:

1,500 個のトークン (1,000 + 100 x 5) が TPM クォータと TPD クォータから消費されます。
1,100 個のトークンに対してのみ請求されます。

max_tokens パラメータの影響について

max_tokens 値は、各リクエストの開始時にクォータから差し引かれます。予想よりも早く TPM クォータに達している場合は、完了サイズにより近づくように、max_tokens を減らしてみてください。

次のシナリオでは、出力トークンのバーンダウンレートが 5 倍であるモデルを使用して、完了したリクエストについてクォータ控除がどのように影響したかの例を示します。

次のパラメータを想定します。

InputTokenCount: 3,000
CacheReadInputTokens: 4,000
CacheWriteInputTokens: 1,000
OutputTokenCount: 1,000
max_tokens: 32,000

次のクォータ控除が行われます。

リクエスト作成時の初回控除: 36,000 (= 3,000 + 1,000 + 32,000)
最終調整済み控除 (応答生成後): 9,000 (= 3,000 + 1,000 + 1,000 x 5)

このシナリオでは、max_tokens パラメータの設定が高すぎるため、同時リクエスト数が少なくなる可能性があります。これにより、TPM クォータ容量にすばやく到達するため、リクエストの同時実行、スループット、クォータの使用が減少します。

次のパラメータを想定します。

InputTokenCount: 3,000
CacheReadInputTokens: 4,000
CacheWriteInputTokens: 1,000
OutputTokenCount: 1,000
max_tokens: 1,250

次のクォータ控除が行われます。

リクエスト作成時の初回控除: 5,250 (= 3,000 + 1,000 + 1,250)
最終調整済み控除 (応答生成後): 9,000 (= 3,000 + 1,000 + 1,000 x 5)

このシナリオでは、初期控除が最終調整済み控除よりもほんの少し高いため、max_tokens パラメータが最適化されました。これにより、リクエストの同時実行数、スループット、クォータの使用が増加しました。

max_tokens パラメータの最適化

max_tokens パラメータを最適化することで、割り当てられたクォータ容量を効率的に使用できます。このパラメータの決定を通知するために、Amazon CloudWatch を使用できます。Amazon CloudWatch は、Amazon Bedrock のトークン使用状況データなど、 AWS サービスからメトリクスを自動的に収集します。

トークンは InputTokenCount と OutputTokenCount のランタイムメトリクスに記録されます (その他のメトリクスについては、「Amazon Bedrock ランタイムメトリクス」を参照してください。

CloudWatch モニタリングを使用して max_tokens パラメータの決定を通知するには、 AWS マネジメントコンソールで以下を実行します。

https://console.aws.amazon.com/cloudwatch で Amazon CloudWatch コンソールにサインインします。
左側のナビゲーションパネルで [ダッシュボード] を選択します。
[自動ダッシュボード] タブを選択します。
[Bedrock] を選択します。
[モデル別のトークン数] ダッシュボードで、展開アイコンを選択します。
ピーク使用量を考慮して、メトリクスの期間と範囲パラメータを選択します。
[合計] とラベル付けされたドロップダウンメニューから、異なるメトリクスを選択してトークンの使用量を観察できます。これらのメトリクスを調べて、max_tokens 値の設定に関する決定をガイドします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

クォータ

CountTokens API