本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Bedrock 字符的計數方式
當您執行模型推論時,根據您使用的 Amazon Bedrock 模型,可以處理的字符數量有配額限制。請檢閱下列與字符配額相關的術語:
| 術語 | 定義 |
|---|---|
InputTokenCount |
CloudWatch Amazon Bedrock 執行時期指標,代表請求中做為模型輸入提供的字符數量。 |
OutputTokenCount |
CloudWatch Amazon Bedrock 執行時期指標,代表在對請求的回應中由模型產生的字符數量。 |
CacheReadInputTokens |
CloudWatch Amazon Bedrock 執行時期指標,代表從快取成功擷取的輸入字符數量,而不是模型重新處理的輸入字符數量。如果您未使用提示快取,則此值為 0。 |
CacheWriteInputTokens |
CloudWatch Amazon Bedrock 執行時期指標,代表成功寫入快取的輸入字符數量。如果您未使用提示快取,則此值為 0。 |
| 每分鐘字符數 (TPM) | 您可以在一分鐘內使用的字符數量 (包括輸入和輸出),AWS在模型層級由 設定的配額。 |
| 每日字符數量 (TPD) | 您可以在一天內使用的字符數量 (包括輸入和輸出),AWS在模型層級由 設定的配額。根據預設,此值為 TPM x 24 x 60。不過,新的 AWS 帳戶已減少配額。 |
| 每分鐘請求數量 (RPM) | 您可以在一分鐘內傳送的請求數量,AWS在模型層級由 設定的配額。 |
max_tokens |
您在請求中提供的參數,用於設定模型可產生的輸出字符數量上限。 |
| 銷毀率 | 輸入和輸出字符轉換為限流系統其字符配額用量的比率。 |
下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符會消耗您配額中的 5 個字符):
-
Anthropic Claude Opus 4
-
Anthropic Claude Opus 4.1
-
Anthropic Claude Sonnet 4.5
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
-
Anthropic Claude 3 Haiku 4.5
所有其他模型的銷毀率為 1:1 (1 個輸出字符會消耗您配額中的 1 個字符)。
了解字符配額管理
當您提出請求時,會從 TPM 和 TPD 配額中扣除字符。計算會在下列階段進行:
-
請求開始時 – 假設您尚未超過 RPM 配額,則會從配額中扣除下列總和。如果您超過配額,則會調節該請求。
Total input tokens + max_tokens -
處理期間 – 請求消耗的配額會定期調整,以考量實際產生的輸出字符數量。
-
請求結束時 – 請求消耗的字符總數將如下所示計算,任何未使用的字符都會補充到您的配額:
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)如果您不使用提示快取,則
CacheWriteInputTokens將為 0。CacheReadInputTokens不會計入此計算中。
注意
只會向您收取實際字符用量的費用。
例如,如果您使用 Anthropic Claude Sonnet 4,並傳送一個包含 1,000 個輸入字符的請求,則會產生相當於 100 個字符的回應:
-
您 TPM 和 TPD 配額中的 1,500 個字符 (1,000 + 100 x 5) 將耗盡。
-
只會向您收取 1,100 個字符的費用。
了解 max_tokens 參數的影響
該 max_tokens 值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額,請嘗試減少 max_tokens 以更接近完成的大小。
下列情境提供範例說明如何使用銷毀率為輸出字符 5 倍的模型對已完成的請求扣除配額:
假設有下列參數:
-
InputTokenCount:3,000
-
CacheReadInputTokens:4,000
-
CacheWriteInputTokens:1,000
-
OutputTokenCount:1,000
-
max_tokens:32,000
會發生下列配額扣除:
-
提出請求時的初始扣款:40,000 (= 3,000 + 4,000 + 1,000 + 32,000)
-
產生回應後的最終調整後扣除:9,000 (= 3,000 + 1,000 + 1,000 x 5)
在此情境中,由於 max_tokens 參數設定的過高,因此可以提出的並行請求數量會減少。這會減少並行請求、輸送量和配額使用率,因為很快就會達到 TPM 配額容量。
假設有下列參數:
-
InputTokenCount:3,000
-
CacheReadInputTokens:4,000
-
CacheWriteInputTokens:1,000
-
OutputTokenCount:1,000
-
max_tokens:1,250
會發生下列配額扣除:
-
提出請求時的初始扣款:9,250 (= 3,000 + 4,000 + 1,000 + 1,250)
-
產生回應後的最終調整後扣除:9,000 (= 3,000 + 1,000 + 1,000 x 5)
在此情境中,max_tokens 參數已最佳化,因為初始扣除僅略高於最終調整後扣除。這有助於增加請求並行、輸送量和配額使用率。
最佳化 max_tokens 參數
透過最佳化 max_tokens 參數,您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策,您可以使用 Amazon CloudWatch,其會自動從 AWS服務收集指標,包括 Amazon Bedrock 中的字符用量資料。
字符會記錄在 InputTokenCount 和 OutputTokenCount 執行時期指標中 (如需更多指標,請參閱 Amazon Bedrock 執行時期指標)。
若要使用 CloudWatch 監控來協助您做出 max_tokens 參數的決策,請在 AWS 管理主控台 中執行下列動作:
-
登入 Amazon CloudWatch 主控台,網址為 https://https://console.aws.amazon.com/cloudwatch
。 -
從左側導覽窗格中,選取儀表板。
-
選取自動儀表板索引標籤。
-
選取 Bedrock。
-
在依模型的字符計數儀表板中,選取展開圖示。
-
為指標選取時間持續時間和範圍參數,以考慮尖峰用量。
-
從標記為總和的下拉式功能表中,您可以選擇不同的指標來觀察字符用量。檢查這些指標,以引導您做出設定
max_tokens值的決策。