本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
如何在 Amazon Bedrock 中計算字符
當您執行模型推論時,根據您使用的 Amazon Bedrock 模型,可以處理的字符數量有配額。檢閱下列與字符配額相關的術語:
術語 | 定義 |
---|---|
InputTokenCount |
CloudWatch Amazon Bedrock 執行時間指標,代表請求中做為模型輸入提供的字符數量。 |
OutputTokenCount |
CloudWatch Amazon Bedrock 執行時間指標,代表模型為回應請求而產生的字符數量。 |
CacheReadInputTokens |
CloudWatch Amazon Bedrock 執行時間指標,代表從快取成功擷取的輸入字符數量,而不是模型重新處理的數量。如果您不使用提示快取,則此值為 0。 |
CacheWriteInputTokens |
CloudWatch Amazon Bedrock 執行時間指標,代表已成功寫入快取的輸入字符數量。如果您不使用提示快取,則此值為 0。 |
每分鐘字符數 (TPM) | 您可以在一分鐘內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。 |
每天字符 (TPD) | 您可以在一天內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。根據預設,此值為 TPM x 24 x 60。不過,新的 AWS 帳戶 已減少配額。 |
每分鐘請求數 (RPM) | 您可以在一分鐘內傳送的請求數量, AWS 在模型層級由 設定的配額。 |
max_tokens |
您在請求中提供的參數,用於設定模型可產生的最大輸出字符數量。 |
爆量率 | 輸入和輸出字符轉換為限流系統字符配額用量的速率。 |
下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符從您的配額消耗 5 個字符):
-
Anthropic Claude Opus 4
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
對於所有其他模型,縮減率為 1:1 (1 個輸出字符從您的配額消耗 1 個字符)。
了解字符配額管理
當您提出請求時,權杖會從 TPM 和 TPD 配額中扣除。計算會在下列階段進行:
-
在請求開始時 – 假設您尚未超過 RPM 配額,則會從您的配額中扣除下列總和。如果您超過配額,請求會受到調節。
Total input tokens + max_tokens
-
在處理期間 – 請求消耗的配額會定期調整,以考量實際產生的輸出字符數量。
-
在請求結束時 – 請求消耗的字符總數將計算如下,任何未使用的字符都會補充到您的配額:
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
如果您不使用提示快取,則
CacheWriteInputTokens
將為 0。CacheReadInputTokens
不會對此計算做出貢獻。
注意
您只需支付實際字符用量的費用。
例如,如果您使用 AnthropicClaude Sonnet 4並傳送包含 1,000 個輸入字符的請求,它會產生相當於 100 個字符的回應:
-
1,500 個字符 (1,000 + 100 x 5) 將從您的 TPM 和 TPD 配額耗盡。
-
您只需支付 1,100 個字符的費用。
了解 max_tokens 參數的影響
該max_tokens
值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額,請嘗試減少 ,max_tokens
以更接近完成的大小。
下列案例提供配額扣除如何使用輸出字符的 5 倍縮減率模型來處理已完成請求的範例:
假設下列參數:
-
InputTokenCount:3,000
-
CacheReadInputTokens:4,000
-
CacheWriteInputTokens:1,000
-
OutputTokenCount:1,000
-
max_tokens:32,000
會發生下列配額扣除:
-
發出請求時的初始扣款:40,000 (= 3,000 + 4,000 + 1,000 + 32,000)
-
產生回應後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)
在此案例中,由於 max_tokens
參數設定過高,因此可以提出較少的並行請求。這可減少請求並行、輸送量和配額使用率,因為會快速達到 TPM 配額容量。
假設下列參數:
-
InputTokenCount:3,000
-
CacheReadInputTokens:4,000
-
CacheWriteInputTokens:1,000
-
OutputTokenCount:1,000
-
max_tokens:1,250
會發生下列配額扣除:
-
發出請求時的初始扣款:9,250 (= 3,000 + 4,000 + 1,000 + 1,250)
-
回應產生後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)
在此案例中, max_tokens
參數已最佳化,因為初始扣款僅略高於最終調整扣款。這有助於增加請求並行、輸送量和配額使用率。
最佳化 max_tokens 參數
透過最佳化 max_tokens
參數,您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策,您可以使用 Amazon CloudWatch,它會自動從 AWS 服務收集指標,包括 Amazon Bedrock 中的字符用量資料。
權杖會記錄在 InputTokenCount
和OutputTokenCount
執行時間指標中 (如需更多指標,請參閱 Amazon Bedrock 執行時間指標。
若要使用 CloudWatch 監控來通知您 max_tokens
參數的決定,請在 中執行下列動作 AWS Management Console:
-
登入 Amazon CloudWatch 主控台,網址為 https://https://console.aws.amazon.com/cloudwatch
。 -
從左側導覽窗格中,選取儀表板。
-
選取自動儀表板索引標籤。
-
選取 Bedrock。
-
在模型的字符計數儀表板中,選取展開圖示。
-
選取指標的持續時間和範圍參數,以考慮尖峰用量。
-
從標記為總和的下拉式選單中,您可以選擇不同的指標來觀察字符用量。檢查這些指標,以引導您決定設定您的
max_tokens
值。