如何在 Amazon Bedrock 中計算字符 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

如何在 Amazon Bedrock 中計算字符

當您執行模型推論時,根據您使用的 Amazon Bedrock 模型,可以處理的字符數量有配額。檢閱下列與字符配額相關的術語:

術語 定義
InputTokenCount CloudWatch Amazon Bedrock 執行時間指標,代表請求中做為模型輸入提供的字符數量。
OutputTokenCount CloudWatch Amazon Bedrock 執行時間指標,代表模型為回應請求而產生的字符數量。
CacheReadInputTokens CloudWatch Amazon Bedrock 執行時間指標,代表從快取成功擷取的輸入字符數量,而不是模型重新處理的數量。如果您不使用提示快取,則此值為 0。
CacheWriteInputTokens CloudWatch Amazon Bedrock 執行時間指標,代表已成功寫入快取的輸入字符數量。如果您不使用提示快取,則此值為 0。
每分鐘字符數 (TPM) 您可以在一分鐘內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。
每天字符 (TPD) 您可以在一天內使用的字符數量 (包括輸入和輸出), AWS 在模型層級由 設定的配額。根據預設,此值為 TPM x 24 x 60。不過,新的 AWS 帳戶 已減少配額。
每分鐘請求數 (RPM) 您可以在一分鐘內傳送的請求數量, AWS 在模型層級由 設定的配額。
max_tokens 您在請求中提供的參數,用於設定模型可產生的最大輸出字符數量。
爆量率 輸入和輸出字符轉換為限流系統字符配額用量的速率。

下列模型的銷毀率為輸出字符的 5 倍 (1 個輸出字符從您的配額消耗 5 個字符):

  • Anthropic Claude Opus 4

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

對於所有其他模型,縮減率為 1:1 (1 個輸出字符從您的配額消耗 1 個字符)。

了解字符配額管理

當您提出請求時,權杖會從 TPM 和 TPD 配額中扣除。計算會在下列階段進行:

  • 在請求開始時 – 假設您尚未超過 RPM 配額,則會從您的配額中扣除下列總和。如果您超過配額,請求會受到調節。

    Total input tokens + max_tokens
  • 處理期間 – 請求消耗的配額會定期調整,以考量實際產生的輸出字符數量。

  • 在請求結束時 – 請求消耗的字符總數將計算如下,任何未使用的字符都會補充到您的配額:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    如果您不使用提示快取,則 CacheWriteInputTokens將為 0。 CacheReadInputTokens 不會對此計算做出貢獻。

注意

您只需支付實際字符用量的費用。

例如,如果您使用 AnthropicClaude Sonnet 4並傳送包含 1,000 個輸入字符的請求,它會產生相當於 100 個字符的回應:

  • 1,500 個字符 (1,000 + 100 x 5) 將從您的 TPM 和 TPD 配額耗盡。

  • 您只需支付 1,100 個字符的費用。

了解 max_tokens 參數的影響

max_tokens值會在每個請求開始時從您的配額中扣除。如果您比預期更早達到 TPM 配額,請嘗試減少 ,max_tokens以更接近完成的大小。

下列案例提供配額扣除如何使用輸出字符的 5 倍縮減率模型來處理已完成請求的範例:

假設下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:32,000

會發生下列配額扣除:

  • 發出請求時的初始扣款:40,000 (= 3,000 + 4,000 + 1,000 + 32,000)

  • 產生回應後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此案例中,由於 max_tokens 參數設定過高,因此可以提出較少的並行請求。這可減少請求並行、輸送量和配額使用率,因為會快速達到 TPM 配額容量。

假設下列參數:

  • InputTokenCount:3,000

  • CacheReadInputTokens:4,000

  • CacheWriteInputTokens:1,000

  • OutputTokenCount:1,000

  • max_tokens:1,250

會發生下列配額扣除:

  • 發出請求時的初始扣款:9,250 (= 3,000 + 4,000 + 1,000 + 1,250)

  • 回應產生後的最終調整後扣款:9,000 (= 3,000 + 1,000 + 1,000 x 5)

在此案例中, max_tokens 參數已最佳化,因為初始扣款僅略高於最終調整扣款。這有助於增加請求並行、輸送量和配額使用率。

最佳化 max_tokens 參數

透過最佳化 max_tokens 參數,您可以有效率地利用配置的配額容量。為了協助通知您有關此參數的決策,您可以使用 Amazon CloudWatch,它會自動從 AWS 服務收集指標,包括 Amazon Bedrock 中的字符用量資料。

權杖會記錄在 InputTokenCountOutputTokenCount執行時間指標中 (如需更多指標,請參閱 Amazon Bedrock 執行時間指標

若要使用 CloudWatch 監控來通知您 max_tokens 參數的決定,請在 中執行下列動作 AWS Management Console:

  1. 登入 Amazon CloudWatch 主控台,網址為 https://https://console.aws.amazon.com/cloudwatch

  2. 從左側導覽窗格中,選取儀表板

  3. 選取自動儀表板索引標籤。

  4. 選取 Bedrock

  5. 模型的字符計數儀表板中,選取展開圖示。

  6. 選取指標的持續時間和範圍參數,以考慮尖峰用量。

  7. 從標記為總和的下拉式選單中,您可以選擇不同的指標來觀察字符用量。檢查這些指標,以引導您決定設定您的max_tokens值。