

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon Bedrock でのトークンのカウント方法
<a name="quotas-token-burndown"></a>

モデル推論を実行する場合、使用する Amazon Bedrock モデルに応じて処理できるトークンの数にはクォータがあります。トークンのクォータに関連する次の用語を確認してください。


****  

| 用語 | 定義 | 
| --- | --- | 
| InputTokenCount | キャッシュされたトークンを除く、モデルによって処理された入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。クォータに対する入力トークンの合計消費量を確認するには、 を合計しますInputTokenCount \+ CacheWriteInputTokens。 | 
| OutputTokenCount | リクエストに応じてモデルにより生成されたトークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。 | 
| CacheReadInputTokens | モデルによって再処理されるのではなく、キャッシュから正常に取得された入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。この値は、[プロンプトキャッシュ](prompt-caching.md)を使用しない場合は 0 になります。 | 
| CacheWriteInputTokens | キャッシュに正常に書き込まれた入力トークンの数を表す CloudWatch Amazon Bedrock ランタイムメトリクス。この値は、[プロンプトキャッシュ](prompt-caching.md)を使用しない場合は 0 になります。 | 
| 1 分あたりのトークン数 (TPM) | 1 分間 AWS で使用できるトークンの数 (入力と出力の両方を含む) のモデルレベルで によって設定されたクォータ。 | 
| 1 日あたりのトークン数 (TPD) | 1 日に使用できるトークンの数 (入力と出力の両方を含む) のモデルレベルで AWS によって設定されたクォータ。デフォルトでは、この値は TPM x 24 x 60 です。ただし、新しい AWS アカウント ではクォータが削減されました。 | 
| 1 分あたりのリクエスト数 (RPM) | 1 分間に送信できるリクエスト数に対してモデルレベルで AWS によって設定されたクォータ。 | 
| max\_tokens | モデルが生成できる出力トークンの最大数を設定するためにリクエストで指定するパラメータ。 | 
| バーンダウンレート | 入力トークンと出力トークンがスロットリングシステムのトークンクォータ使用量に変換されるレート。 | 

Anthropic Claude モデルバージョン 3.7 以降のバーンダウンレートは、**出力トークンに対して 5 倍です** (1 つの出力トークンはクォータから 5 つのトークンを消費します）。

他のすべてのモデルの場合、バーンダウンレートは **1:1** になります (1 つの出力トークンはクォータから 1 つのトークンを消費します)。

**Topics**
+ [トークンクォータ管理について](#quotas-token-burndown-management)
+ [max\_tokens パラメータの影響について](#quotas-token-burndown-max-tokens)
+ [max\_tokens パラメータの最適化](#quotas-token-burndown-max-tokens-optimize)

## トークンクォータ管理について
<a name="quotas-token-burndown-management"></a>

リクエストを行うと、TPM および TPD クォータからトークンが差し引かれます。計算は次の段階で行われます。
+ **リクエストの開始時** – RPM クォータを超過していないと仮定して、次の合計がクォータから差し引かれます。クォータを超えると、リクエストはスロットリングされます。

  ```
  Total input tokens + max_tokens
  ```
+ **処理中** – リクエストによって消費されたクォータは、生成された出力トークンの実際の数を考慮して定期的に調整されます。
+ **リクエストの終了時** – リクエストによって消費されたトークンの合計数は次のように計算され、未使用のトークンがあればクォータに補充されます。

  ```
  InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
  ```

  `CacheReadInputTokens` この計算には寄与せず、クォータにはカウントされません。[プロンプトキャッシュを使用しない場合](prompt-caching.md)、 `CacheWriteInputTokens`と の両方`CacheReadInputTokens`が 0 になります。

**注記**  
実際のトークン使用量に対してのみ請求されます。  
例えば、Anthropic Claude Sonnet 4 を使用して、1,000 個の入力トークンを含むリクエストを送信し、100 個のトークンに相当する応答を生成する場合:  
**1,500 個のトークン** (1,000 \+ 100 x 5) が TPM クォータと TPD クォータから消費されます。
**1,100 個のトークン**に対してのみ請求されます。

## max\_tokens パラメータの影響について
<a name="quotas-token-burndown-max-tokens"></a>

`max_tokens` 値は、各リクエストの開始時にクォータから差し引かれます。予想よりも早く TPM クォータに達している場合は、完了サイズにより近づくように、`max_tokens` を減らしてみてください。

次のシナリオでは、出力トークンのバーンダウンレートが 5 倍であるモデルを使用して、完了したリクエストについてクォータ控除がどのように影響したかの例を示します。

### シナリオ 1: max\_tokens 値が高い
<a name="quotas-token-burndown-max-tokens-too-high"></a>

次のパラメータを想定します。
+ **InputTokenCount:** 3,000
+ **CacheReadInputTokens:** 4,000
+ **CacheWriteInputTokens:** 1,000
+ **OutputTokenCount:** 1,000
+ **max\_tokens:** 32,000

次のクォータ控除が行われます。
+ **リクエスト作成時の初回控除:** 36,000 (= 3,000 \+ 1,000 \+ 32,000)
+ **最終調整済み控除 (応答生成後):** 9,000 (= 3,000 \+ 1,000 \+ 1,000 x 5)

このシナリオでは、`max_tokens` パラメータの設定が高すぎるため、同時リクエスト数が少なくなる可能性があります。これにより、TPM クォータ容量にすばやく到達するため、リクエストの同時実行、スループット、クォータの使用が減少します。

### シナリオ 2: 最適化された max\_tokens 値
<a name="quotas-token-burndown-max-tokens-optimized"></a>

次のパラメータを想定します。
+ **InputTokenCount:** 3,000
+ **CacheReadInputTokens:** 4,000
+ **CacheWriteInputTokens:** 1,000
+ **OutputTokenCount:** 1,000
+ **max\_tokens:** 1,250

次のクォータ控除が行われます。
+ **リクエスト作成時の最初の控除:** 5,250 (= 3,000 \+ 1,000 \+ 1,250)
+ **最終調整済み控除 (応答生成後):** 9,000 (= 3,000 \+ 1,000 \+ 1,000 x 5)

このシナリオでは、初期控除が最終調整済み控除よりもほんの少し高いため、`max_tokens` パラメータが最適化されました。これにより、リクエストの同時実行数、スループット、クォータの使用が増加しました。

## max\_tokens パラメータの最適化
<a name="quotas-token-burndown-max-tokens-optimize"></a>

`max_tokens` パラメータを最適化することで、割り当てられたクォータ容量を効率的に使用できます。このパラメータの決定を通知するために、Amazon CloudWatch を使用できます。Amazon CloudWatch は、Amazon Bedrock のトークン使用状況データなど、 AWS サービスからメトリクスを自動的に収集します。

トークンは `InputTokenCount` と `OutputTokenCount` のランタイムメトリクスに記録されます (その他のメトリクスについては、「[Amazon Bedrock ランタイムメトリクス](monitoring.md#runtime-cloudwatch-metrics)」を参照してください。

CloudWatch モニタリングを使用して `max_tokens` パラメータの決定を通知するには、 AWS マネジメントコンソールで以下を実行します。

1. [https://console.aws.amazon.com/cloudwatch](https://console.aws.amazon.com/cloudwatch) で Amazon CloudWatch コンソールにサインインします。

1. 左側のナビゲーションパネルで **[ダッシュボード]** を選択します。

1. **[自動ダッシュボード]** タブを選択します。

1. **[Bedrock]** を選択します。

1. **[モデル別のトークン数]** ダッシュボードで、展開アイコンを選択します。

1. ピーク使用量を考慮して、メトリクスの期間と範囲パラメータを選択します。

1. **[合計]** とラベル付けされたドロップダウンメニューから、異なるメトリクスを選択してトークンの使用量を観察できます。これらのメトリクスを調べて、`max_tokens` 値の設定に関する決定をガイドします。