So werden Token in Amazon Bedrock gezählt - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So werden Token in Amazon Bedrock gezählt

Wenn Modellinferenz ausführen, gibt es Kontingente für die Anzahl der Token, die verarbeitet werden können, je nachdem, welches Amazon-Bedrock-Modell Sie verwenden. Sehen Sie sich die folgende Terminologie im Zusammenhang mit Token-Kontingenten an:

Begriff Definition
InputTokenCount Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Token in einer Anfrage darstellt, die als Eingabe für das Modell bereitgestellt wird.
OutputTokenCount Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Token darstellt, die vom Modell als Antwort auf eine Anfrage generiert wurden.
CacheReadInputTokens Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich aus einem Cache abgerufen wurden, anstatt vom Modell erneut verarbeitet zu werden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden.
CacheWriteInputTokens Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich in den Cache geschrieben wurden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden.
Token pro Minute (TPM) Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe- und Ausgabe-Tokens), die Sie in einer Minute verwenden können.
Token pro Tag (TPD) Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe und Ausgabe), die Sie an einem Tag verwenden können. Standardmäßig ist dieser Wert TPM x 24 x 60. Neue AWS-Konten haben jedoch die Kontingente reduziert.
Anfragen pro Minute (RPM) Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Anfragen, die Sie in einer Minute senden können.
max_tokens Ein Parameter, den Sie in Ihrer Anforderung angeben, um eine maximale Anzahl von Ausgabetoken festzulegen, die das Modell generieren kann.
Burndown-Rate Die Rate, mit der Eingabe- und Ausgabetoken in die Nutzung von Token-Kontingenten für das Drosselungssystem umgewandelt werden.

Die Burndown-Rate für die folgenden Modelle beträgt das Fünffache für Ausgabetoken (1 Ausgabetoken verbraucht 5 Token aus Ihren Kontingenten):

  • AnthropicClaude Opus4

  • AnthropicClaude Opus4.1

  • Anthropic Claude Sonnet 4.5

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

  • AnthropicClaude 3 Haiku4,5

Bei allen anderen Modellen beträgt die Burndown-Rate 1:1 (1 Ausgabetoken verbraucht 1 Token aus Ihrem Kontingent).

Grundlegendes zur Token-Kontingentverwaltung

Wenn Sie eine Anfrage stellen, werden die Token von Ihren TPM- und TPD-Kontingenten abgezogen. Die Berechnungen erfolgen in den folgenden Phasen:

  • Zu Beginn der Anfrage – Unter der Annahme, dass Sie Ihr RPM-Kontingent nicht überschritten haben, wird die folgende Summe von Ihren Kontingenten abgezogen. Die Anfrage wird gedrosselt, wenn Sie ein Kontingent überschreiten.

    Total input tokens + max_tokens
  • Während der Verarbeitung – Das von der Anfrage verbrauchte Kontingent wird regelmäßig angepasst, um der tatsächlichen Anzahl der generierten Ausgabetoken Rechnung zu tragen.

  • Am Ende der Anfrage – Die Gesamtzahl der von der Anfrage verbrauchten Token wird wie folgt berechnet und alle ungenutzten Token werden bis zu Ihrem Kontingent aufgefüllt:

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    Wenn Sie kein Prompt-Caching verwenden, ist CacheWriteInputTokens 0. CacheReadInputTokens tragen nicht zu dieser Berechnung bei.

Anmerkung

Ihnen wird nur Ihre tatsächliche Token-Nutzung in Rechnung gestellt.

Wenn Sie beispielsweise mithilfe des Modells Anthropic Claude Sonnet 4 eine Anfrage mit 1 000 Eingabetoken senden und das Modell eine Antwort generiert, die 100 Token entspricht:

  • 1 500 Token (1 000 + 100 x 5) werden aus Ihren TPM- und TPD-Kontingenten aufgebraucht.

  • Ihnen werden nur 1 100 Token in Rechnung gestellt.

Grundlegendes zu den Auswirkungen des Parameters max_tokens

Der Wert max_tokens wird zu Beginn jeder Anfrage von Ihrem Kontingent abgezogen. Wenn Sie die TPM-Kontingente früher als erwartet erreichen, versuchen Sie max_tokens zu reduzieren, um die ungefähre Größe Ihrer Vervollständigungen besser zu schätzen.

Die folgenden Szenarien bieten Beispiele dafür, wie Kontingentabzüge bei abgeschlossenen Anfragen mit einem Modell funktioniert hätten, das eine 5-fache Burndown-Rate für Ausgabetoken vorsieht:

Gehen Sie von folgenden Parametern aus:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • max_tokens: 32 000

Die folgenden Kontingentabzüge werden vorgenommen:

  • Erster Abzug beim Erstellen der Anfrage: 40 000 (= 3 000 + 4 000 + 1 000 + 32 000)

  • Endgültiger bereinigter Abzug nach Generierung der Antwort: 9 000 (= 3 000 + 1 000 + 1 000 x 5)

In diesem Szenario konnten weniger gleichzeitige Anfragen gestellt werden, da der max_tokens-Parameter zu hoch eingestellt war. Dadurch werden die Gleichzeitigkeit der Anfragen, der Durchsatz und die Kontingentnutzung reduziert, da die TPM-Kontingentkapazität schnell erreicht wird.

Gehen Sie von folgenden Parametern aus:

  • InputTokenCount: 3.000

  • CacheReadInputTokens: 4.000

  • CacheWriteInputTokens: 1.000

  • OutputTokenCount: 1.000

  • max_tokens: 1 250

Die folgenden Kontingentabzüge werden vorgenommen:

  • Erster Abzug beim Erstellen der Anfrage: 9 250 (= 3 000 + 4 000 + 1 000 + 1 250)

  • Endgültiger bereinigter Abzug nach Generierung der Antwort: 9 000 (= 3 000 + 1 000 + 1 000 x 5)

In diesem Szenario wurde der max_tokens-Parameter optimiert, da der anfängliche Abzug nur geringfügig höher ist als der endgültige bereinigte Abzug ist. Dies trug dazu bei, die Gleichzeitigkeit der Anfragen, den Durchsatz und die Kontingentnutzung zu erhöhen.

Optimieren des max_tokens-Parameters

Durch die Optimierung des max_tokens-Parameters können Sie Ihre zugewiesene Kontingentkapazität effizient nutzen. Um Ihnen bei Ihrer Entscheidung über diesen Parameter zu helfen, können Sie Amazon verwenden CloudWatch, das automatisch Metriken von AWS Diensten sammelt, einschließlich Token-Nutzungsdaten in Amazon Bedrock.

Token werden in den Laufzeitmetriken InputTokenCount und OutputTokenCount erfasst (weitere Metriken finden Sie unter Amazon-Bedrock-Laufzeitmetrik).

Gehen Sie wie folgt vor, um die CloudWatch Überwachung als Grundlage für Ihre Entscheidung über den max_tokens Parameter zu verwenden: AWS-Managementkonsole

  1. Melden Sie sich bei der CloudWatch Amazon-Konsole unter https://console.aws.amazon.com/cloudwatch an.

  2. Wählen Sie im linken Navigationsbereich die Option Dashboards aus.

  3. Wählen Sie die Registerkarte Automatische Dashboards aus.

  4. Klicken Sie auf Bedrock.

  5. Wählen Sie im Dashboard Token-Anzahl nach Modell das Erweiterungssymbol aus.

  6. Wählen Sie einen Zeitraum und Bereichsparameter für die Metriken aus, um die Spitzennutzung zu berücksichtigen.

  7. Aus dem Dropdown-Menü mit der Bezeichnung Summe können Sie verschiedene Metriken auswählen, um Ihre Token-Nutzung zu beobachten. Untersuchen Sie diese Metriken als Grundlage für Ihre Entscheidung zur Festlegung Ihres max_tokens-Werts.