Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wie Tokens in Amazon Bedrock gezählt werden
Wenn Sie Model Inference ausführen, gibt es Kontingente für die Anzahl der Token, die verarbeitet werden können, je nachdem, welches Amazon Bedrock-Modell Sie verwenden. Lesen Sie die folgende Terminologie im Zusammenhang mit Token-Kontingenten:
Begriff | Definition |
---|---|
InputTokenCount |
Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Token in einer Anfrage darstellt, die als Eingabe für das Modell bereitgestellt wird. |
OutputTokenCount |
Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der vom Modell als Antwort auf eine Anfrage generierten Token darstellt. |
CacheReadInputTokens |
Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich aus einem Cache abgerufen wurden, anstatt vom Modell erneut verarbeitet zu werden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden. |
CacheWriteInputTokens |
Die CloudWatch Amazon Bedrock-Laufzeitmetrik, die die Anzahl der Eingabe-Token darstellt, die erfolgreich in den Cache geschrieben wurden. Dieser Wert ist 0, wenn Sie kein Prompt-Caching verwenden. |
Tokens pro Minute (TPM) | Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe und Ausgabe), die Sie in einer Minute verwenden können. |
Tokens pro Tag (TPD) | Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Token (einschließlich Eingabe und Ausgabe), die Sie an einem Tag verwenden können. Standardmäßig ist dieser Wert TPM x 24 x 60. Neue AWS-Konten haben jedoch die Kontingente reduziert. |
Anfragen pro Minute (RPM) | Ein auf Modellebene AWS festgelegtes Kontingent für die Anzahl der Anfragen, die Sie in einer Minute senden können. |
max_tokens |
Ein Parameter, den Sie in Ihrer Anfrage angeben, um eine maximale Anzahl von Ausgabetokens festzulegen, die das Modell generieren kann. |
Abbrandrate | Die Rate, mit der Eingabe- und Ausgabetokens in die Nutzung von Token-Kontingenten für das Drosselungssystem umgewandelt werden. |
Die Burndown-Rate für die folgenden Modelle beträgt das Fünffache für Ausgabetoken (1 Ausgabetoken verbraucht 5 Token aus Ihren Kontingenten):
-
AnthropicClaude Opus4
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
Bei allen anderen Modellen beträgt die Burndown-Rate 1:1 (1 Ausgabetoken verbraucht 1 Token aus Ihrem Kontingent).
Themen
Grundlegendes zur Token-Quotenverwaltung
Wenn Sie eine Anfrage stellen, werden Token von Ihren TPM- und TPD-Kontingenten abgezogen. Berechnungen finden in den folgenden Phasen statt:
-
Zu Beginn der Anfrage — Unter der Annahme, dass Sie Ihr RPM-Kontingent nicht überschritten haben, wird die folgende Summe von Ihren Kontingenten abgezogen. Die Anfrage wird gedrosselt, wenn Sie ein Kontingent überschreiten.
Total input tokens + max_tokens
-
Während der Verarbeitung — Das von der Anfrage verbrauchte Kontingent wird regelmäßig angepasst, um der tatsächlichen Anzahl der generierten Ausgabetokens Rechnung zu tragen.
-
Am Ende der Anfrage — Die Gesamtzahl der von der Anfrage verbrauchten Token wird wie folgt berechnet, und alle ungenutzten Token werden bis zu Ihrem Kontingent aufgefüllt:
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
Wenn du kein Prompt-Caching verwendest,
CacheWriteInputTokens
wird der Wert 0 sein.CacheReadInputTokens
tragen Sie nicht zu dieser Berechnung bei.
Anmerkung
Ihnen wird nur Ihre tatsächliche Token-Nutzung in Rechnung gestellt.
Wenn Sie beispielsweise eine Anfrage mit 1.000 Eingabetoken verwenden Anthropic Claude Sonnet 4 und senden und diese eine Antwort generiert, die 100 Token entspricht:
-
1.500 Token (1.000 + 100 x 5) werden aus Ihren TPM- und TPD-Kontingenten aufgebraucht.
-
Ihnen werden nur 1.100 Token in Rechnung gestellt.
Die Auswirkungen des Parameters max_tokens verstehen
Der max_tokens
Wert wird zu Beginn jeder Anfrage von Ihrem Kontingent abgezogen. Wenn Sie die TPM-Kontingente früher als erwartet erreichen, versuchen Sie es max_tokens
zu reduzieren, um der Größe Ihrer Abschlüsse besser zu entsprechen.
Die folgenden Szenarien bieten Beispiele dafür, wie Quotenabzüge bei abgeschlossenen Anfragen funktioniert hätten, wenn ein Modell verwendet wurde, das eine 5-fache Burndown-Rate für Ausgabetokens vorsieht:
Gehen Sie von den folgenden Parametern aus:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
maximale Anzahl an Tokens: 32.000
Die folgenden Quotenabzüge finden statt:
-
Erster Abzug bei Anfrage: 40.000 (= 3.000 + 4.000 + 1.000 + 32.000)
-
Endgültiger bereinigter Abzug nach Generierung der Antwort: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
In diesem Szenario konnten weniger gleichzeitige Anfragen gestellt werden, da der max_tokens
Parameter zu hoch eingestellt war. Dadurch werden die Parallelität der Anfragen, der Durchsatz und die Kontingentauslastung reduziert, da die TPM-Kontingentkapazität schnell erreicht würde.
Gehen Sie von den folgenden Parametern aus:
-
InputTokenCount: 3.000
-
CacheReadInputTokens: 4.000
-
CacheWriteInputTokens: 1.000
-
OutputTokenCount: 1.000
-
Max_Tokens: 1.250
Die folgenden Quotenabzüge finden statt:
-
Erster Abzug bei Anfrage: 9.250 (= 3.000 + 4.000 + 1.000 + 1.250)
-
Endgültiger bereinigter Abzug nach Generierung der Antwort: 9.000 (= 3.000 + 1.000 + 1.000 x 5)
In diesem Szenario wurde der max_tokens
Parameter optimiert, da der anfängliche Abzug nur geringfügig höher ist als der endgültige berichtigte Abzug. Dies trug dazu bei, die Parallelität der Anfragen, den Durchsatz und die Kontingentauslastung zu erhöhen.
Optimierung des Parameters max_tokens
Durch die Optimierung des max_tokens
Parameters können Sie Ihre zugewiesene Kontingentkapazität effizient nutzen. Um Ihnen bei Ihrer Entscheidung über diesen Parameter zu helfen, können Sie Amazon verwenden CloudWatch, das automatisch Metriken von AWS Diensten sammelt, einschließlich Token-Nutzungsdaten in Amazon Bedrock.
Tokens werden in den InputTokenCount
und OutputTokenCount
Runtime-Metriken aufgezeichnet (weitere Metriken finden Sie unterAmazon Bedrock-Laufzeitmetriken.
Gehen Sie wie folgt vor, um die CloudWatch Überwachung als Grundlage für Ihre Entscheidung über den max_tokens
Parameter zu verwenden AWS Management Console:
-
Melden Sie sich bei der CloudWatch Amazon-Konsole unter https://console.aws.amazon.com/cloudwatch
an. -
Wählen Sie im linken Navigationsbereich Dashboards aus.
-
Wählen Sie die Registerkarte Automatische Dashboards aus.
-
Wählen Sie Bedrock aus.
-
Wählen Sie im Dashboard Token-Anzahl nach Modell das Erweiterungssymbol aus.
-
Wählen Sie eine Zeitdauer und Bereichsparameter für die Metriken aus, um die Spitzennutzung zu berücksichtigen.
-
Aus dem Drop-down-Menü mit der Bezeichnung Summe können Sie verschiedene Messwerte auswählen, um Ihre Token-Nutzung zu beobachten. Untersuchen Sie diese Kennzahlen als Grundlage für Ihre Entscheidung zur Festlegung Ihres
max_tokens
Werts.