Amazon Bedrock 字符的計數方式 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Bedrock 字符的計數方式

當您執行模型推論時,根據您使用的 Amazon Bedrock 模型,可以處理的字符數量有配額限制。請檢閱下列與字符配額相關的術語:

術語 定義
InputTokenCount CloudWatch Amazon Bedrock 執行時期指標,代表請求中做為模型輸入提供的字符數量。
OutputTokenCount CloudWatch Amazon Bedrock 執行時期指標,代表在對請求的回應中由模型產生的字符數量。
CacheReadInputTokens CloudWatch Amazon Bedrock 執行時期指標,代表從快取成功擷取的輸入字符數量,而不是模型重新處理的輸入字符數量。如果您未使用提示快取,則此值為 0。
CacheWriteInputTokens CloudWatch Amazon Bedrock 執行時期指標,代表成功寫入快取的輸入字符數量。如果您未使用提示快取,則此值為 0。
每分鐘字符數 (TPM) 您可以在一分鐘內使用的字符數量 (包括輸入和輸出),AWS在模型層級由 設定的配額。
每日字符數量 (TPD) 您可以在一天內使用的字符數量 (包括輸入和輸出),AWS在模型層級由 設定的配額。根據預設,此值為 TPM x 24 x 60。不過,新的 AWS 帳戶已減少配額。
每分鐘請求數量 (RPM) 您可以在一分鐘內傳送的請求數量,AWS在模型層級由 設定的配額。
max_tokens 您在請求中提供的參數,用於設定模型可產生的輸出字符數量上限。
銷毀率 輸入和輸出字符轉換為限流系統其字符配額用量的比率。

下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符會消耗您配額中的 5 個字符):

  • Anthropic Claude Opus 4

  • Anthropic Claude Opus 4.1

  • Anthropic Claude Sonnet 4.5

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

  • Anthropic Claude 3 Haiku 4.5

所有其他模型的銷毀率為 1:1 (1 個輸出字符會消耗您配額中的 1 個字符)。

了解字符配額管理

當您提出請求時,會從 TPM 和 TPD 配額中扣除字符。計算會在下列階段進行:

  • 請求開始時 – 假設您尚未超過 RPM 配額,則會從配額中扣除下列總和。如果您超過配額,則會調節該請求。

    Total input tokens + max_tokens
  • 處理期間 – 請求消耗的配額會定期調整,以考量實際產生的輸出字符數量。

  • 請求結束時 – 請求消耗的字符總數將如下所示計算,任何未使用的字符都會補充到您的配額:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    如果您不使用提示快取,則 CacheWriteInputTokens 將為 0。CacheReadInputTokens 不會計入此計算中。

注意

只會向您收取實際字符用量的費用。

例如,如果您使用 Anthropic Claude Sonnet 4,並傳送一個包含 1,000 個輸入字符的請求,則會產生相當於 100 個字符的回應:

  • 您 TPM 和 TPD 配額中的 1,500 個字符 (1,000 + 100 x 5) 將耗盡。

  • 只會向您收取 1,100 個字符的費用。

了解 max_tokens 參數的影響

max_tokens 值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額,請嘗試減少 max_tokens 以更接近完成的大小。

下列情境提供範例說明如何使用銷毀率為輸出字符 5 倍的模型對已完成的請求扣除配額:

假設有下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:32,000

會發生下列配額扣除:

  • 提出請求時的初始扣款:40,000 (= 3,000 + 4,000 + 1,000 + 32,000)

  • 產生回應後的最終調整後扣除:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此情境中,由於 max_tokens 參數設定的過高,因此可以提出的並行請求數量會減少。這會減少並行請求、輸送量和配額使用率,因為很快就會達到 TPM 配額容量。

假設有下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:1,250

會發生下列配額扣除:

  • 提出請求時的初始扣款:9,250 (= 3,000 + 4,000 + 1,000 + 1,250)

  • 產生回應後的最終調整後扣除:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此情境中,max_tokens 參數已最佳化,因為初始扣除僅略高於最終調整後扣除。這有助於增加請求並行、輸送量和配額使用率。

最佳化 max_tokens 參數

透過最佳化 max_tokens 參數,您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策,您可以使用 Amazon CloudWatch,其會自動從 AWS服務收集指標,包括 Amazon Bedrock 中的字符用量資料。

字符會記錄在 InputTokenCountOutputTokenCount 執行時期指標中 (如需更多指標,請參閱 Amazon Bedrock 執行時期指標)。

若要使用 CloudWatch 監控來協助您做出 max_tokens 參數的決策,請在 AWS 管理主控台 中執行下列動作:

  1. 登入 Amazon CloudWatch 主控台,網址為 https://https://console.aws.amazon.com/cloudwatch

  2. 從左側導覽窗格中,選取儀表板

  3. 選取自動儀表板索引標籤。

  4. 選取 Bedrock

  5. 依模型的字符計數儀表板中,選取展開圖示。

  6. 為指標選取時間持續時間和範圍參數,以考慮尖峰用量。

  7. 從標記為總和的下拉式功能表中,您可以選擇不同的指標來觀察字符用量。檢查這些指標,以引導您做出設定 max_tokens 值的決策。