Erweitertes Denken - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erweitertes Denken

Erweitertes Denken ermöglicht Claude bessere Argumentationsfähigkeiten für komplexe Aufgaben und sorgt gleichzeitig für ein unterschiedliches Maß an Transparenz in Bezug auf den step-by-step Denkprozess, bevor er seine endgültige Antwort liefert. Wann immer Sie den Denkmodus aktivierenClaude, müssen Sie ein Budget für die maximale Anzahl von Tokens festlegen, die Sie für den internen Denkprozess verwenden Claude können.

Die unterstützten Modelle lauten wie folgt:

Modell Modell-ID

Claude Opus 4

anthropic.claude-opus-4-20250514-v1:0

Claude Sonnet 4

anthropic.claude-sonnet-4-20250514-v1:0

Claude 3.7 Sonnet

anthropic.claude-3-7-sonnet-20250219-v1:0

Anmerkung

Das API-Verhalten unterscheidet sich zwischen den Modellen Claude 3.7 und Claude 4. Weitere Informationen finden Sie unter Unterschiede im Denken zwischen den Modellversionen.

Bewährte Methoden und Überlegungen für erweitertes Denken

Richtlinien für die Verwendung

  • Aufgabenauswahl: Verwenden Sie erweitertes Denken für besonders komplexe Aufgaben, bei denen logisches step-by-step Denken von Vorteil ist, wie Mathematik, Programmieren und Analysieren.

  • Umgang mit dem Kontext: Sie müssen frühere Denkblockaden nicht selbst entfernen. Die Anthropic API ignoriert automatisch Denkblöcke aus früheren Runden und sie werden bei der Berechnung der Kontextnutzung nicht berücksichtigt.

  • Prompt Engineering: Lesen Anthropic Sie die erweiterten Tipps zur Denkanregung, wenn Sie Ihre Denkfähigkeit maximieren Claude möchten.

Leistungsaspekte

  • Reaktionszeiten: Seien Sie auf möglicherweise längere Antwortzeiten vorbereitet, da für den Argumentationsprozess zusätzliche Bearbeitung erforderlich ist. Berücksichtigen Sie, dass das Generieren von Denkblockaden die Gesamtreaktionszeit verlängern kann.

  • Streaming-Anforderungen: Streaming ist erforderlich, wenn der max_tokens Wert mehr als 21.333 beträgt. Seien Sie beim Streamen darauf vorbereitet, sowohl mit Inhaltsblöcken als thinking auch mit eingehenden text Inhaltsblöcken umzugehen.

Kompatibilität der Funktionen

  • Denken ist nicht kompatibel mit temperaturetop_p, oder top_k Modifikationen oder erzwungener Verwendung von Tools.

  • Sie können Antworten nicht vorab ausfüllen, wenn Denken aktiviert ist.

  • Änderungen am Thinking Budget führen dazu, dass zwischengespeicherte Präfixe für Eingabeaufforderungen, die Nachrichten enthalten, ungültig werden. Zwischengespeicherte Systemaufforderungen und Werkzeugdefinitionen funktionieren jedoch weiterhin, wenn sich die Denkparameter ändern.

Wir arbeiten mit durchdachten Budgets

  • Budgetoptimierungen: Das Mindestbudget beträgt 1.024 Token. Anthropicschlägt vor, mit dem Minimum zu beginnen und das Denkbudget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Eine größere Anzahl von Tokens ermöglicht vielleicht eine umfassendere und nuanciertere Argumentation, aber je nach Aufgabe kann es auch zu sinkenden Renditen kommen. Das Budget ist eher ein Ziel als ein striktes Limit — die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.

  • Minimale und optimale Einstellungen: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Denkbudget schrittweise zu erhöhen, um den optimalen Bereich für eine gute Leistung für Ihren Anwendungsfall Claude zu finden. Eine höhere Anzahl von Tokens ermöglicht Ihnen möglicherweise eine umfassendere und nuanciertere Argumentation, aber je nach Aufgabe kann es auch zu sinkenden Renditen kommen. Das Denkbudget ist eher ein Ziel als ein striktes Limit — die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.

  • Experimentieren: Das Modell kann bei unterschiedlichen Einstellungen für das maximale Denkbudget unterschiedlich abschneiden. Eine Erhöhung des Budgets für maximales Denken kann dazu führen, dass das Modell besser oder härter denkt, was allerdings mit einer erhöhten Latenz einhergeht. Bei kritischen Aufgaben sollten Sie erwägen, verschiedene Budgeteinstellungen zu testen, um das optimale Gleichgewicht zwischen Qualität und Leistung zu finden.

  • Große Budgets: Bei Budgets von mehr als 32.000 empfehlen wir die Stapelverarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu drängen, über 32.000 Tokens nachzudenken, führen zu lang andauernden Anfragen, die zu System-Timeouts und offenen Verbindungslimits führen können. Bitte beachten Sie, dass die max_tokens Grenzwerte je nach Modell variieren. Claude Weitere Informationen finden Sie unter Maximale Anzahl an Tokens und Größe des Kontextfensters bei erweitertem Denken.

  • Nachverfolgung der Token-Nutzung: Überwachen Sie die Nutzung von Thinking-Tokens, um Kosten und Leistung zu optimieren.

So funktioniert erweitertes Denken

Wenn erweitertes Denken aktiviert ist, Claude erstellt es thinking Inhaltsblöcke, in denen es seine internen Überlegungen ausgibt. Claudebezieht Erkenntnisse aus dieser Argumentation mit ein, bevor eine endgültige Antwort verfasst wird. Die API-Antwort wird thinking Inhaltsblöcke enthalten, gefolgt von text Inhaltsblöcken.

Hier ist ein Beispiel für das Standard-Antwortformat:

{ "content": [ { "type": "thinking", "thinking": "Let me analyze this step by step...", "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...." }, { "type": "text", "text": "Based on my analysis..." } ] }

Weitere Informationen zum Antwortformat von Extended Thinking finden Sie unter Anthropic Messages APIAnforderung und Antwort.

Wie benutzt man erweitertes Denken

Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der thinking Parameter auf aktiviert und der Parameter auf ein bestimmtes Token-Budget für erweitertes Denken budget_tokens gesetzt ist.

Der budget_tokens Parameter bestimmt die maximale Anzahl von Tokens, Claude die für den internen Argumentationsprozess verwendet werden dürfen. In Claude vier Modellen gilt dieser Grenzwert für das vollständige Denken und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Qualität der Antworten verbessern, indem sie eine gründlichere Analyse komplexer Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget aufgebraucht wird, insbesondere bei Bereichen über 32 000.

Der Wert von budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei der Verwendung Verschachteltes Denken (Beta) mit Tools können Sie dieses Limit jedoch überschreiten, da das Token-Limit für Ihr gesamtes Kontextfenster gilt (200.000 Token).

Zusammengefasstes Denken

Wenn erweitertes Denken aktiviert ist, gibt die Nachrichten-API für Claude 4 Modelle eine Zusammenfassung Claude des vollständigen Denkprozesses von zurück. Zusammengefasstes Denken bietet alle intelligenten Vorteile des erweiterten Denkens und verhindert gleichzeitig Missbrauch.

Hier sind einige wichtige Überlegungen für zusammengefasstes Denken:

  • Ihnen werden die vollständigen Thinking-Tokens in Rechnung gestellt, die durch die ursprüngliche Anfrage generiert wurden, nicht die Summary-Token.

  • Die Anzahl der in Rechnung gestellten Ausgabetokens entspricht nicht der Anzahl der Token, die Sie in der Antwort sehen.

  • Die für das Summarizer-Modell bereitgestellte Aufforderung kann sich ändern.

  • Die ersten paar Gedankenzeilen sind ausführlicher und bieten eine detaillierte Argumentation, die vor allem für schnelle technische Zwecke hilfreich ist.

Anmerkung

Claude 3.7 Sonnetgibt immer noch das vollständige Gedankenergebnis zurück.

Wenden Sie sich an Ihr Account-Team, um auf das vollständige Thinking Output für Claude 4 Modelle zuzugreifen.

Denken im Streaming

Mithilfe von servergesendeten Ereignissen (SSE) können Sie Antworten aus dem Bereich „Extended Thinking“ streamen. Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte in Form von thinking_delta Ereignissen. Es kann nicht garantiert werden, dass gestreamte Ereignisse mit konstanter Geschwindigkeit zurückkehren. Zwischen Streaming-Ereignissen kann es zu Verzögerungen kommen. Weitere Informationen zum Streamen über die Nachrichten-API finden Sie unter Streaming-Nachrichten.

Hier erfährst du, wie du mit Streaming und Denken umgehen kannst, indem du Folgendes verwendest InvokeModelWithResponseStream:

{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "messages": [ { "role": "user", "content": "What is 27 * 453?" } ] }

Antwort:

event: message_start data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-3-7-sonnet-20250219", "stop_reason": null, "stop_sequence": null}} event: content_block_start data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}} event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Let me solve this step by step:\n\n1. First break down 27 * 453"}} event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}} // Additional thinking deltas... event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}} event: content_block_stop data: {"type": "content_block_stop", "index": 0} event: content_block_start data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}} event: content_block_delta data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}} // Additional text deltas... event: content_block_stop data: {"type": "content_block_stop", "index": 1} event: message_delta data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}} event: message_stop data: {"type": "message_stop"}
Über Streaming-Verhalten beim Denken

Wenn Sie Streaming mit aktiviertem Denken verwenden, stellen Sie möglicherweise fest, dass Text manchmal in größeren Blöcken ankommt und sich mit kleineren Sendungen abwechselt. token-by-token Dies ist ein erwartetes Verhalten, insbesondere bei Inhalten zum Nachdenken. Das Streaming-System muss Inhalte stapelweise verarbeiten, um eine optimale Leistung zu erzielen. Dies kann zu diesem Übertragungsmuster führen.

Erweitertes Denken beim Einsatz von Tools

Erweitertes Denken kann zusammen mit der Fähigkeit Verwendung des Werkzeugs Claude zur Argumentation durch Werkzeugauswahl und Ergebnisverarbeitung genutzt werden. Wenn Sie erweitertes Denken zusammen mit der Verwendung von Tools anwenden, sollten Sie sich der folgenden Einschränkungen bewusst sein:

  • Einschränkung der Werkzeugauswahl: Die Verwendung von Tools in Verbindung mit Denken unterstützt nurtool_choice: any. Die Bereitstellung eines bestimmten Tools oder anderer Werte wird nicht unterstützt. auto

  • Denkblockaden beibehalten: Während der Verwendung des Tools müssen Sie Denkblöcke für die letzte Assistentennachricht an die API zurückgeben. Fügen Sie den gesamten unveränderten Block zurück in die API, um die Kontinuität der Argumentation aufrechtzuerhalten.

So funktioniert die Verwaltung von Kontextfenstern mit Tools:

{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "tools": [ { "name": "get_weather", "description": "Get current weather for a location", "input_schema": { "type": "object", "properties": { "location": { "type": "string" } }, "required": [ "location" ] } } ], "messages": [ { "role": "user", "content": "What's the weather in Paris?" } ] }

Die erste Antwort lautet wie folgt:

{ "content": [ { "type": "thinking", "thinking": "The user wants to know the current weather in Paris. I have access to a function `get_weather`...", "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxYsNrcs...." }, { "type": "text", "text": "I can help you get the current weather information for Paris. Let me check that for you" }, { "type": "tool_use", "id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "name": "get_weather", "input": { "location": "Paris" } } ] }

Wenn Sie die Konversation mit der Verwendung des Tools fortsetzen, wird eine weitere Antwort generiert. Beachten Sie, dass sowohl das thinking_block als auch das übergeben wirdtool_use_block. Wenn dies nicht übergeben wird, tritt ein Fehler auf.

{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "tools": [ { "name": "get_weather", "description": "Get current weather for a location", "input_schema": { "type": "object", "properties": { "location": { "type": "string" } }, "required": [ "location" ] } } ], "messages": [ { "role": "user", "content": "What's the weather in Paris?" }, { "role": "assistant", "content": [ { "type": "thinking", "thinking": "The user wants to know the current weather in Paris. I have access to a function `get_weather`…", "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxY", }, { "type": "tool_use", "id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "name": "get_weather", "input": { "location": "Paris" } } ] }, { "role": "user", "content": [ { "type": "tool_result", "tool_use_id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "content": "Current temperature: 88°F" } ] } ] }

Die API-Antwort enthält jetzt nur Text

{ "content": [ { "type": "text", "text": "Currently in Paris, the temperature is 88°F (31°C)" } ] }

Denkblockaden bewahren

Während der Verwendung des Tools müssen Sie Denkblöcke an die API zurückgeben und den gesamten unveränderten Block wieder in die API aufnehmen. Dies ist entscheidend für die Aufrechterhaltung des Argumentationsflusses und der Konversationsintegrität des Modells.

Tipp

Sie können zwar thinking Blöcke aus früheren assistant Rollenwechseln weglassen, wir empfehlen jedoch, bei Konversationen mit mehreren Runden immer alle Denkblöcke an die API zurückzugeben. Die API wird Folgendes tun:

  • Filtert automatisch die bereitgestellten Denkblöcke

  • Verwenden Sie die relevanten Denkblöcke, die erforderlich sind, um die Argumentation des Modells beizubehalten

  • Stellen Sie nur die Eingabe-Tokens für die Blöcke in Rechnung, denen Folgendes angezeigt wird Claude

Wenn Tools Claude aufgerufen werden, pausiert es die Erstellung einer Antwort, um auf externe Informationen zu warten. Wenn die Ergebnisse des Tools zurückgegeben werden, Claude wird die Erstellung der vorhandenen Antwort fortgesetzt. Aus den folgenden Gründen müssen bei der Verwendung des Tools Denkblockaden beibehalten werden:

  • Kontinuität der Argumentation: Die Denkblöcke erfassen die Claude step-by-step Argumentation, die zu Anfragen nach Tools geführt hat. Wenn Sie die Ergebnisse des Tools veröffentlichen, wird unter Einbeziehung der ursprünglichen Überlegungen sichergestellt, dass Sie Ihre Argumentation dort fortsetzen Claude können, wo sie aufgehört haben.

  • Pflege des Kontextes: Die Ergebnisse der Tools erscheinen zwar als Benutzernachrichten in der API-Struktur, sind aber Teil eines kontinuierlichen Argumentationsflusses. Durch die Beibehaltung von Denkblöcken wird dieser konzeptionelle Fluss über mehrere API-Aufrufe hinweg aufrechterhalten.

Wichtig

Bei der Bereitstellung von Denkblöcken muss die gesamte Abfolge aufeinanderfolgender Denkblöcke mit den Ergebnissen übereinstimmen, die das Modell während der ursprünglichen Anfrage generiert hat. Sie können die Reihenfolge dieser Blöcke nicht neu anordnen oder ändern.

Verschachteltes Denken (Beta)

Warnung

Interleaved Thinking wird Ihnen als „Beta-Service“ gemäß der Definition in den Servicebedingungen zur Verfügung gestellt. AWS Er unterliegt Ihrer Vereinbarung mit AWS und den AWS Servicebedingungen sowie der geltenden Muster-EULA.

ClaudeVier Modelle unterstützen interleaved Thinking, eine Funktion, die es ermöglicht, zwischen den einzelnen Werkzeugaufrufen Claude zu denken und nach Erhalt der Werkzeugergebnisse anspruchsvollere Überlegungen anzustellen. Dies ermöglicht komplexere Agenteninteraktionen, bei denen Claude Folgendes möglich ist:

  • Erläutern Sie die Ergebnisse eines Tool-Aufrufs, bevor Sie entscheiden, was als Nächstes zu tun ist

  • Verketten Sie mehrere Tool-Calls mit dazwischen liegenden Argumentationsschritten

  • Treffen Sie differenziertere Entscheidungen auf der Grundlage von Zwischenergebnissen

Um verschachteltes Denken zu ermöglichen, fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu.

Anmerkung

Beim Interleaved Thinking budget_tokens kann der max_tokens Parameter überschritten werden, da er das Gesamtbudget aller Denkblöcke innerhalb einer Assistentenrunde darstellt.

Erweitertes Denken mit sofortigem Zwischenspeichern

Beim schnellen Zwischenspeichern und Nachdenken sind mehrere wichtige Überlegungen erforderlich:

Denken, Blockieren, Kontext entfernen

  • Denkblöcke aus früheren Runden werden aus dem Kontext entfernt, was sich auf Cache-Breakpoints auswirken kann.

  • Wenn Konversationen mit der Verwendung des Tools fortgesetzt werden, werden Denkblöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden. Dies führt zu einem Kompromiss, bei dem Denkblöcke den Platz im Kontextfenster nicht visuell beanspruchen, aber sie werden trotzdem auf Ihre Eingabetoken-Nutzung angerechnet, wenn sie zwischengespeichert werden.

  • Wenn das Denken deaktiviert wird, schlagen Anfragen fehl, wenn Sie Denkinhalte in der aktuellen Werkzeugnutzungsrunde übergeben. In anderen Kontexten werden Denkinhalte, die an die API übergeben werden, einfach ignoriert.

Muster für die Invalidierung von Caches

  • Änderungen an Denkparametern (wie das Aktivieren, Deaktivieren oder Ändern der Budgetzuweisung) machen die Breakpoints für den Nachrichtencache ungültig.

  • Verschachteltes Denken (Beta)verstärkt die Cache-Invalidierung, da es zwischen mehreren Toolaufrufen zu Denkblockaden kommen kann.

  • Systemaufforderungen und Tools bleiben im Cache, auch wenn sie an Parameteränderungen oder dem Entfernen von Blöcken denken.

Anmerkung

Denkblockaden werden zwar bei Schmerzen und bei Kontextberechnungen entfernt, müssen aber beibehalten werden, wenn Konversationen mit der Verwendung von Tools fortgesetzt werden, insbesondere bei verschachteltem Denken.

Das Verhalten von Denkblockaden beim Zwischenspeichern verstehen

Beim Einsatz von erweitertem Denken und der Verwendung von Tools zeigen Denkblöcke ein spezifisches Caching-Verhalten, das sich auf das Zählen von Tokens auswirkt. Die folgende Sequenz zeigt, wie das funktioniert.

  1. Das Zwischenspeichern erfolgt nur, wenn Sie eine nachfolgende Anforderung stellen, die Werkzeugergebnisse enthält.

  2. Wenn die nachfolgende Anfrage gestellt wird, kann der vorherige Konversationsverlauf (einschließlich Denkblöcke) zwischengespeichert werden.

  3. Diese zwischengespeicherten Denkblöcke zählen als Eingabe-Token in Ihren Nutzungsmetriken, wenn sie aus dem Cache gelesen werden.

  4. Wenn ein non-tool-result Benutzerblock enthalten ist, werden alle vorherigen Denkblöcke ignoriert und aus dem Kontext entfernt.

Hier ist ein detaillierter Beispielablauf:

Anfrage 1:

User: "What's the weather in Paris?"

Antwort 1:

[thinking_block 1] + [tool_use block 1]

Anfrage 2:

User: "What's the weather in Paris?", Assistant: [thinking_block_1] + [tool_use block 1], User: [tool_result_1, cache=True]

Antwort 2:

[thinking_block 2] + [text block 2]

Anfrage 2 schreibt einen Cache mit dem Inhalt der Anfrage (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Denkblock, den Werkzeugverwendungsblock und das Werkzeugergebnis.

Anfrage 3:

User: ["What's the weather in Paris?"], Assistant: [thinking_block_1] + [tool_use block 1], User: [tool_result_1, cache=True], Assistant: [thinking_block_2] + [text block 2], User: [Text response, cache=True]

Da ein non-tool-result Benutzerblock enthalten war, werden alle vorherigen Denkblöcke ignoriert. Diese Anfrage wird genauso bearbeitet wie die folgende Anfrage:

Alternative Anfrage 3:

User: ["What's the weather in Paris?"] Assistant: [tool_use block 1] User: [tool_result_1, cache=True] Assistant: [text block 2] User: [Text response, cache=True]

Dieses Verhalten ist konsistent, unabhängig davon, ob normales Denken oder verschachteltes Denken angewendet wird.

Maximale Anzahl an Tokens und Größe des Kontextfensters bei erweitertem Denken

Wenn in älteren Claude Modellen (früherClaude 3.7 Sonnet) die Summe der Prompt-Token und max_tokens das Kontextfenster des Modells überschritt, passte das System max_tokens automatisch an, sodass es innerhalb des Kontextlimits lag. Das bedeutete, dass Sie einen großen Wert für max_tokens festlegen konnten und das System diesen Wert automatisch nach Bedarf reduzierte. Bei den Modellen Claude 3.7 und 4 max_tokens (was auch Ihr Denkbudget einschließt, wenn das Denken aktiviert ist) wird ein strikter Grenzwert durchgesetzt. Das System gibt jetzt einen Validierungsfehler zurück, wenn die Eingabeaufforderungstoken + max_tokens die Größe des Kontextfensters überschreiten.

Das Kontextfenster mit erweitertem Denken

Bei der Berechnung der Nutzung des Kontextfensters bei aktiviertem Denken sind einige Überlegungen zu beachten:

  • Denkblöcke aus früheren Zügen werden entfernt und nicht auf dein Kontextfenster angerechnet.

  • Das Denken in der aktuellen Runde wird auf dein max_tokens Limit für diesen Zug angerechnet.

Das effektive Kontextfenster wird wie folgt berechnet: Kontextfenster = (aktuelle Eingabe-Tokens — vorherige Denk-Tokens) + (Denk-Tokens + verschlüsselte Denk-Tokens + Textausgabe-Tokens).

Verwaltung von Tokens durch erweitertes Denken und Einsatz von Tools

Wenn erweitertes Denken zusammen mit der Verwendung von Tools verwendet wird, müssen Denkblöcke explizit beibehalten und zusammen mit den Werkzeugergebnissen zurückgegeben werden. Die effektive Berechnung des Kontextfensters für erweitertes Denken bei Verwendung von Tools sieht wie folgt aus:

context window = (current input tokens + previous thinking tokens + tool use tokens) + (thinking tokens + encrypted thinking tokens + text output tokens)

Verwaltung von Tokens durch erweitertes Denken

Angesichts des Kontextfensters und des max_tokens Verhaltens der Modelle Extended Thinking Claude 3.7 und 4 müssen Sie möglicherweise eine der folgenden Aktionen ausführen:

  • Überwachen und verwalten Sie Ihre Token-Nutzung aktiver.

  • Passen Sie die max_tokens Werte an, wenn sich die Länge Ihrer Aufforderung ändert.

  • Beachten Sie, dass sich frühere Denkblockaden nicht in Ihrem Kontextfenster ansammeln. Diese Änderung wurde vorgenommen, um ein vorhersehbareres und transparenteres Verhalten zu ermöglichen, insbesondere da die maximalen Token-Limits erheblich gestiegen sind.

Überlegungen zu den Kosten eines erweiterten Denkens

Für den Denkprozess fallen Gebühren für Folgendes an:

  • Tokens, die beim Denken verwendet werden (Output-Token)

  • Denkblöcke aus der letzten Runde des Assistenten, die in nachfolgenden Anfragen enthalten sind (Eingabe-Token)

  • Standard-Textausgabe-Token

Tipp

Wenn Extended Thinking aktiviert ist, wird automatisch eine spezielle Systemaufforderung mit 28 oder 29 Tokens hinzugefügt, um diese Funktion zu unterstützen.

Der budget_tokens Parameter bestimmt die maximale Anzahl von Tokens, Claude die für den internen Argumentationsprozess verwendet werden dürfen. Größere Budgets können die Qualität der Antworten verbessern, indem sie eine gründlichere Analyse komplexer Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget aufgebraucht wird, insbesondere bei Bereichen über 32 000.

Bei verschachteltem Denken budget_tokens kann der max_tokens Parameter überschritten werden, da er das Gesamtbudget aller Denkblöcke innerhalb einer Assistentenrunde darstellt.

Beachten Sie bei der Verwendung von zusammengefasstem Denken die folgenden Informationen:

  • Eingabe-Tokens: Tokens in Ihrer ursprünglichen Anfrage

  • Ausgabe-Token (in Rechnung gestellt): Die ursprünglichen Denk-Token, die intern Claude generiert wurden

  • Output-Token (sichtbar): Die zusammengefassten Denk-Token, die Sie in der Antwort sehen

  • Kostenlos: Tokens, die zur Generierung der Zusammenfassung verwendet wurden

  • Das summary_status Feld kann angeben, ob das Token die Zusammenfassung der betroffenen Daten einschränkt

  • Die Anzahl der in Rechnung gestellten Ausgabetokens entspricht nicht der Anzahl sichtbarer Token in der Antwort. Ihnen wird der gesamte Denkprozess in Rechnung gestellt, nicht die Zusammenfassung, die Sie sehen.