Grundlegendes zur Token-Quotenverwaltung Die Auswirkungen des Parameters max_tokens verstehen Optimierung des Parameters max_tokens

Wie Tokens in Amazon Bedrock gezählt werden

Wenn Sie Model Inference ausführen, gibt es Kontingente für die Anzahl der Token, die verarbeitet werden können, je nachdem, welches Amazon Bedrock-Modell Sie verwenden. Lesen Sie die folgende Terminologie im Zusammenhang mit Token-Kontingenten:

Begriff	Definition
`InputTokenCount`	Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Token in einer Anfrage darstellt, die als Eingabe für das Modell bereitgestellt wird.
`OutputTokenCount`	Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der vom Modell als Antwort auf eine Anfrage generierten Token darstellt.
`CacheReadInputTokens`	Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich aus einem Cache abgerufen wurden, anstatt vom Modell erneut verarbeitet zu werden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden.
`CacheWriteInputTokens`	Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich in den Cache geschrieben wurden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden.
Tokens pro Minute (TPM)	Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe und Ausgabe), die Sie in einer Minute verwenden können.
Tokens pro Tag (TPD)	Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe und Ausgabe), die Sie an einem Tag verwenden können. Standardmäßig ist dieser Wert TPM x 24 x 60. Neue AWS-Konten haben jedoch die Kontingente reduziert.
Anfragen pro Minute (RPM)	Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Anfragen, die Sie in einer Minute senden können.
`max_tokens`	Ein Parameter, den Sie in Ihrer Anfrage angeben, um eine maximale Anzahl von Ausgabetokens festzulegen, die das Modell generieren kann.
Abbrandrate	Die Rate, mit der Eingabe- und Ausgabetokens in die Nutzung von Token-Kontingenten für das Drosselungssystem umgewandelt werden.

Die Burndown-Rate für die folgenden Modelle beträgt das Fünffache für Ausgabetoken (1 Ausgabetoken verbraucht 5 Token aus Ihren Kontingenten):

AnthropicClaude Opus4
Anthropic Claude Sonnet 4.5
Anthropic Claude Sonnet 4
Anthropic Claude 3.7 Sonnet

Bei allen anderen Modellen beträgt die Burndown-Rate 1:1 (1 Ausgabetoken verbraucht 1 Token aus Ihrem Kontingent).

Themen

Grundlegendes zur Token-Quotenverwaltung
Die Auswirkungen des Parameters max_tokens verstehen
Optimierung des Parameters max_tokens

Grundlegendes zur Token-Quotenverwaltung

Wenn Sie eine Anfrage stellen, werden Token von Ihren TPM- und TPD-Kontingenten abgezogen. Berechnungen finden in den folgenden Phasen statt:

Zu Beginn der Anfrage — Unter der Annahme, dass Sie Ihr RPM-Kontingent nicht überschritten haben, wird die folgende Summe von Ihren Kontingenten abgezogen. Die Anfrage wird gedrosselt, wenn Sie ein Kontingent überschreiten.
```
Total input tokens + max_tokens
```
Während der Verarbeitung — Das von der Anfrage verbrauchte Kontingent wird regelmäßig angepasst, um der tatsächlichen Anzahl der generierten Ausgabetokens Rechnung zu tragen.
Am Ende der Anfrage — Die Gesamtzahl der von der Anfrage verbrauchten Token wird wie folgt berechnet, und alle ungenutzten Token werden bis zu Ihrem Kontingent aufgefüllt:
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
Wenn du kein Prompt-Caching verwendest, CacheWriteInputTokens wird der Wert 0 sein. CacheReadInputTokenstragen Sie nicht zu dieser Berechnung bei.

Anmerkung

Ihnen wird nur Ihre tatsächliche Token-Nutzung in Rechnung gestellt.

Wenn Sie beispielsweise eine Anfrage mit 1.000 Eingabetoken verwenden Anthropic Claude Sonnet 4 und senden und diese eine Antwort generiert, die 100 Token entspricht:

1.500 Token (1.000 + 100 x 5) werden aus Ihren TPM- und TPD-Kontingenten aufgebraucht.
Ihnen werden nur 1.100 Token in Rechnung gestellt.

Die Auswirkungen des Parameters max_tokens verstehen

Der max_tokens Wert wird zu Beginn jeder Anfrage von Ihrem Kontingent abgezogen. Wenn Sie die TPM-Kontingente früher als erwartet erreichen, versuchen Sie es max_tokens zu reduzieren, um der Größe Ihrer Abschlüsse besser zu entsprechen.

Die folgenden Szenarien bieten Beispiele dafür, wie Quotenabzüge bei abgeschlossenen Anfragen funktioniert hätten, wenn ein Modell verwendet wurde, das eine 5-fache Burndown-Rate für Ausgabetokens vorsieht:

Gehen Sie von den folgenden Parametern aus:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
maximale Anzahl an Tokens: 32.000

Die folgenden Quotenabzüge finden statt:

Erster Abzug bei Anfrage: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
Endgültiger bereinigter Abzug nach Generierung der Antwort: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

In diesem Szenario konnten weniger gleichzeitige Anfragen gestellt werden, da der max_tokens Parameter zu hoch eingestellt war. Dadurch werden die Parallelität der Anfragen, der Durchsatz und die Kontingentauslastung reduziert, da die TPM-Kontingentkapazität schnell erreicht würde.

Gehen Sie von den folgenden Parametern aus:

InputTokenCount: 3.000
CacheReadInputTokens: 4.000
CacheWriteInputTokens: 1.000
OutputTokenCount: 1.000
Max_Tokens: 1.250

Die folgenden Quotenabzüge finden statt:

Erster Abzug bei Anfrage: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
Endgültiger bereinigter Abzug nach Generierung der Antwort: 9.000 (= 3.000 + 1.000 + 1.000 x 5)

In diesem Szenario wurde der max_tokens Parameter optimiert, da der anfängliche Abzug nur geringfügig höher ist als der endgültige berichtigte Abzug. Dies trug dazu bei, die Parallelität der Anfragen, den Durchsatz und die Kontingentauslastung zu erhöhen.

Optimierung des Parameters max_tokens

Durch die Optimierung des max_tokens Parameters können Sie Ihre zugewiesene Kontingentkapazität effizient nutzen. Um Ihnen bei Ihrer Entscheidung über diesen Parameter zu helfen, können Sie Amazon verwenden CloudWatch, das automatisch Metriken von AWS Diensten sammelt, einschließlich Token-Nutzungsdaten in Amazon Bedrock.

Tokens werden in den InputTokenCount und OutputTokenCount Runtime-Metriken aufgezeichnet (weitere Metriken finden Sie unterAmazon Bedrock-Laufzeitmetriken.

Gehen Sie wie folgt vor, um die CloudWatch Überwachung als Grundlage für Ihre Entscheidung über den max_tokens Parameter zu verwenden AWS-Managementkonsole:

Melden Sie sich bei der CloudWatch Amazon-Konsole unter https://console.aws.amazon.com/cloudwatch an.
Wählen Sie im linken Navigationsbereich Dashboards aus.
Wählen Sie die Registerkarte Automatische Dashboards aus.
Wählen Sie Bedrock aus.
Wählen Sie im Dashboard Token-Anzahl nach Modell das Erweiterungssymbol aus.
Wählen Sie eine Zeitdauer und Bereichsparameter für die Metriken aus, um die Spitzennutzung zu berücksichtigen.
Aus dem Drop-down-Menü mit der Bezeichnung Summe können Sie verschiedene Messwerte auswählen, um Ihre Token-Nutzung zu beobachten. Untersuchen Sie diese Kennzahlen als Grundlage für Ihre Entscheidung zur Festlegung Ihres max_tokens Werts.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kontingente

Zählen Sie Token, um Nutzung und Kosten zu überwachen