了解字符配額管理了解 max_tokens 參數的影響最佳化 max_tokens 參數

Amazon Bedrock 字符的計數方式

當您執行模型推論時，根據您使用的 Amazon Bedrock 模型，可以處理的字符數量有配額限制。請檢閱下列與字符配額相關的術語：

術語	定義
`InputTokenCount`	CloudWatch Amazon Bedrock 執行時間指標，代表模型處理的輸入字符數量，不包括快取字符。若要根據您的配額判斷總輸入字符用量，請加總 `InputTokenCount + CacheWriteInputTokens`。
`OutputTokenCount`	CloudWatch Amazon Bedrock 執行時期指標，代表在對請求的回應中由模型產生的字符數量。
`CacheReadInputTokens`	CloudWatch Amazon Bedrock 執行時期指標，代表從快取成功擷取的輸入字符數量，而不是模型重新處理的輸入字符數量。如果您未使用提示快取，則此值為 0。
`CacheWriteInputTokens`	CloudWatch Amazon Bedrock 執行時期指標，代表成功寫入快取的輸入字符數量。如果您未使用提示快取，則此值為 0。
每分鐘字符數 (TPM)	您可以在一分鐘內使用之字符數量（包括輸入和輸出）在模型層級 AWS 設定的配額。
每日字符數量 (TPD)	您可以在一天內使用的字符數量（包括輸入和輸出）， AWS 在模型層級由設定的配額。根據預設，此值為 TPM x 24 x 60。不過，新的 AWS 帳戶已減少配額。
`max_tokens`	您在請求中提供的參數，用於設定模型可產生的輸出字符數量上限。
銷毀率	輸入和輸出字符轉換為限流系統其字符配額用量的比率。

輸出字符的 Anthropic Claude 模型 4.8 版的縮減率為 15 倍 (1 個輸出字符從您的配額消耗 15 個字符），而輸出字符的 Anthropic Claude Sonnet 5 的縮減率為 10 倍。對於所有其他 Anthropic 模型 4.7 版及更新版本，輸出字符的停機時間為 5 倍 (1 個輸出字符從您的配額耗用 5 個字符）。

所有其他模型的銷毀率為 1：1 (1 個輸出字符會消耗您配額中的 1 個字符)。

字符銷毀率僅適用於bedrock-runtime端點上可用的模型。bedrock-mantle 端點上獨有的模型具有不同的輸入和輸出字符配額，因此不會套用縮減。

了解字符配額管理

當您提出請求時，會從 TPM 和 TPD 配額中扣除字符。計算會在下列階段進行：

在請求開始時 – 以下總和會從您的配額中扣除。如果您超過配額，則會調節該請求。
```
Total input tokens + max_tokens
```
處理期間 – 請求消耗的配額會定期調整，以考量實際產生的輸出字符數量。
請求結束時 – 請求消耗的字符總數將如下所示計算，任何未使用的字符都會補充到您的配額：
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
CacheReadInputTokens 不會計入此計算，也不會計入您的配額。如果您不使用提示快取，則 CacheWriteInputTokens和 CacheReadInputTokens都會是 0。

注意

只會向您收取實際字符用量的費用。

例如，如果您使用 Anthropic Claude Sonnet 4，並傳送一個包含 1,000 個輸入字符的請求，則會產生相當於 100 個字符的回應：

您 TPM 和 TPD 配額中的 1,500 個字符 (1,000 + 100 x 5) 將耗盡。
只會向您收取 1,100 個字符的費用。

了解 max_tokens 參數的影響

該 max_tokens 值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額，請嘗試減少 max_tokens 以更接近完成的大小。

下列情境提供範例說明如何使用銷毀率為輸出字符 5 倍的模型對已完成的請求扣除配額：

假設有下列參數：

InputTokenCount：3,000
CacheReadInputTokens：4,000
CacheWriteInputTokens：1,000
OutputTokenCount：1,000
max_tokens：32,000

會發生下列配額扣除：

發出請求時的初始扣款：36，000 (= 3，000 + 1，000 + 32，000)
產生回應後的最終調整後扣除：9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此情境中，由於 max_tokens 參數設定的過高，因此可以提出的並行請求數量會減少。這可減少請求並行、輸送量和配額使用量，因為可快速達到 TPM 配額容量。

假設有下列參數：

InputTokenCount：3,000
CacheReadInputTokens：4,000
CacheWriteInputTokens：1,000
OutputTokenCount：1,000
max_tokens：1,250

會發生下列配額扣除：

發出請求時的初始扣款：5，250 (= 3，000 + 1，000 + 1，250)
產生回應後的最終調整後扣除：9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此情境中，max_tokens 參數已最佳化，因為初始扣除僅略高於最終調整後扣除。這有助於增加請求並行、輸送量和配額使用。

最佳化 max_tokens 參數

透過最佳化 max_tokens 參數，您可以有效率地使用配置的配額容量。為了協助您決定此參數，您可以使用 Amazon CloudWatch，它會自動從 AWS 服務收集指標，包括 Amazon Bedrock 中的字符用量資料。

字符會記錄在 InputTokenCount 和 OutputTokenCount 執行時期指標中 (如需更多指標，請參閱 Amazon Bedrock 執行時期指標)。

若要使用 CloudWatch 監控來協助您做出 max_tokens 參數的決策，請在 AWS Management Console中執行下列動作：

登入 Amazon CloudWatch 主控台，網址為 https：//https://console.aws.amazon.com/cloudwatch。
從左側導覽窗格中，選取儀表板。
選取自動儀表板索引標籤。
選取 Bedrock。
在依模型的字符計數儀表板中，選取展開圖示。
為指標選取時間持續時間和範圍參數，以考慮尖峰用量。
從標記為總和的下拉式功能表中，您可以選擇不同的指標來觀察字符用量。檢查這些指標，以引導您做出設定 max_tokens 值的決策。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

配額

CountTokens API