Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Pensamiento extendido
El pensamiento extendido proporciona Claude una mayor capacidad de razonamiento para tareas complejas, al tiempo que proporciona diferentes niveles de transparencia en su proceso de step-by-step pensamiento antes de dar su respuesta final. Siempre que Claude actives el modo de pensar, tendrás que establecer un presupuesto para el número máximo de fichas que Claude podrás utilizar en su proceso de razonamiento interno.
Los modelos compatibles son los siguientes:
Modelo | ID del modelo |
---|---|
Claude Opus 4 |
|
Claude Sonnet 4 |
|
Claude 3.7 Sonnet |
|
nota
El comportamiento de la API difiere entre los modelos Claude 3.7 y Claude 4. Para obtener más información, consulte Diferencias de pensamiento entre las versiones de los modelos.
Temas
Prácticas recomendadas y consideraciones para una reflexión más amplia
Comprender el comportamiento del almacenamiento en caché de los bloques de pensamiento
Maximice el tamaño de las fichas y de la ventana de contexto con una reflexión más amplia
Pensamiento extendido: consideraciones sobre el costo de los tokens
Prácticas recomendadas y consideraciones para una reflexión más amplia
Directrices de uso
-
Selección de tareas: utilice el pensamiento extendido para tareas particularmente complejas que se benefician del step-by-step razonamiento, como las matemáticas, la codificación y el análisis.
-
Manejo del contexto: no es necesario que elimines tú mismo los bloqueos de pensamiento anteriores. La Anthropic API ignora automáticamente los bloques de pensamiento de los turnos anteriores y no se incluyen al calcular el uso del contexto.
-
Ingeniería rápida: si quieres maximizar Anthropic las capacidades de pensamiento, consulta los extensos consejos
de reflexión que se ofrecen Claude aquí.
Consideraciones sobre el rendimiento
-
Tiempos de respuesta: prepárese para tiempos de respuesta potencialmente más largos debido al procesamiento adicional que requiere el proceso de razonamiento. Tenga en cuenta que la generación de bloques de reflexión podría aumentar el tiempo de respuesta general.
-
Requisitos de transmisión: la transmisión es obligatoria cuando
max_tokens
es superior a 21.333. Cuando hagas streaming, prepárate para gestionar tanto los bloques comothinking
los detext
contenido a medida que vayan llegando.
Compatibilidad de funciones
-
El pensamiento no es compatible con
temperature
top_p
,top_k
las modificaciones o el uso forzado de herramientas. -
No se pueden rellenar previamente las respuestas cuando se habilita el pensamiento.
-
Los cambios en el presupuesto provisional invalidan los prefijos de los mensajes guardados en caché que incluyen mensajes. Sin embargo, las indicaciones del sistema almacenadas en caché y las definiciones de herramientas seguirán funcionando cuando cambien los parámetros de pensamiento.
Trabajando con presupuestos pensantes
-
Optimizaciones presupuestarias: el presupuesto mínimo es de 1024 fichas. Anthropicsugiere empezar con el mínimo y aumentar el presupuesto inicial de forma gradual para encontrar el rango óptimo para su caso de uso. Un mayor número de fichas puede permitir un razonamiento más completo y matizado, pero también puede haber rendimientos decrecientes en función de la tarea. El presupuesto previsto es un objetivo y no un límite estricto; el uso real de fichas puede variar en función de la tarea.
-
Configuración mínima y óptima: el presupuesto mínimo es de 1024 fichas. Te sugerimos empezar por lo mínimo y aumentar el presupuesto inicial de forma gradual para encontrar el rango óptimo que permita un buen rendimiento Claude para tu caso de uso. Un mayor número de fichas podría permitirte obtener un razonamiento más completo y matizado, pero también podrían disminuir los beneficios en función de la tarea. El presupuesto previsto es un objetivo y no un límite estricto; el uso real de fichas puede variar en función de la tarea.
-
Experimentación: el modelo podría funcionar de manera diferente en diferentes niveles de presupuesto máximo. Aumentar el presupuesto máximo para pensar puede hacer que el modelo piense mejor o con más ahínco, a cambio de una mayor latencia. Para las tareas críticas, considere la posibilidad de probar diferentes ajustes presupuestarios para encontrar el equilibrio óptimo entre calidad y rendimiento.
-
Presupuestos elevados: si piensa en presupuestos superiores a 32 000, le recomendamos utilizar el procesamiento por lotes para evitar problemas de red. Las solicitudes que hacen que el modelo supere los 32 000 tokens provocan solicitudes de larga duración, lo que puede provocar tiempos de espera del sistema y límites de conexión abierta. Ten en cuenta que
max_tokens
los límites varían de un modelo a otro. Claude Para obtener más información, consulte Maximice el tamaño de las fichas y de la ventana de contexto con una reflexión más amplia. -
Seguimiento del uso de los tokens: Supervise el uso de los tokens pensando en ellos para optimizar los costes y el rendimiento.
Cómo funciona el pensamiento extendido
Cuando se activa el pensamiento extendido, Claude crea bloques de thinking
contenido en los que genera su razonamiento interno. Claudeincorpora los conocimientos de este razonamiento antes de elaborar una respuesta final. La respuesta de la API incluirá bloques de thinking
contenido, seguidos de bloques de text
contenido.
A continuación, se muestra un ejemplo del formato de respuesta predeterminado:
{ "content": [ { "type": "thinking", "thinking": "Let me analyze this step by step...", "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...." }, { "type": "text", "text": "Based on my analysis..." } ] }
Para obtener más información sobre el formato de respuesta de Extended Thinking, consulta Anthropic la API de mensajesSolicitud y respuesta.
¿Cómo utilizar el pensamiento extendido
Para activar el pensamiento extendido, agrega un thinking
objeto, con el conjunto de thinking
parámetros activado y el budget_tokens
conjunto con un presupuesto simbólico específico para el pensamiento extendido.
El budget_tokens
parámetro determina el número máximo de fichas Claude que puede utilizar para su proceso de razonamiento interno. En Claude 4 modelos, este límite se aplica a las fichas de pensamiento completo y no al resultado resumido. Los presupuestos más grandes pueden mejorar la calidad de la respuesta al permitir un análisis más exhaustivo de los problemas complejos, aunque es Claude posible que no se utilice todo el presupuesto asignado, especialmente en rangos superiores a 32 000.
El valor de budget_tokens
debe estar establecido en un valor inferior max_tokens
a. Sin embargo, si lo utiliza Pensamiento intercalado (beta) con herramientas, puede superar este límite, ya que el límite de fichas se convierte en toda la ventana de contexto (200 000 fichas).
Pensamiento resumido
Al habilitar el pensamiento extendido, la API de Mensajes para Claude 4 modelos muestra un resumen Claude del proceso de pensamiento completo. El pensamiento resumido proporciona todos los beneficios de inteligencia del pensamiento prolongado y, al mismo tiempo, evita su uso indebido.
Estas son algunas consideraciones importantes para resumir el pensamiento:
-
Se te cobrará por la totalidad de las fichas de reflexión generadas por la solicitud original, no por las fichas de resumen.
-
El recuento de fichas de salida facturado no coincidirá con el recuento de fichas que aparece en la respuesta.
-
El mensaje que se proporciona en el modelo de resumen está sujeto a cambios.
-
Las primeras líneas de pensamiento son más detalladas y proporcionan un razonamiento detallado que es particularmente útil para fines de ingeniería rápida.
nota
Claude 3.7 Sonnetaun así, devuelve toda la producción de pensamiento.
Para acceder a la información completa sobre Claude 4 modelos, ponte en contacto con tu equipo de cuentas.
Pensamiento en streaming
Puede transmitir las respuestas de pensamiento extendido mediante eventos enviados por el servidor (SSE). Cuando la transmisión está habilitada para una reflexión prolongada, recibes contenido reflexivo a través thinking_delta
de eventos. No se garantiza que los eventos retransmitidos regresen a un ritmo constante. Puede haber demoras entre la transmisión de los eventos. Para obtener más documentación sobre la transmisión a través de la API de mensajes, consulta la sección Transmisión de mensajes
A continuación, te explicamos cómo gestionar el streaming pensando en ello mediante InvokeModelWithResponseStream:
{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "messages": [ { "role": "user", "content": "What is 27 * 453?" } ] }
Respuesta:
event: message_start data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-3-7-sonnet-20250219", "stop_reason": null, "stop_sequence": null}} event: content_block_start data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}} event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Let me solve this step by step:\n\n1. First break down 27 * 453"}} event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}} // Additional thinking deltas... event: content_block_delta data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}} event: content_block_stop data: {"type": "content_block_stop", "index": 0} event: content_block_start data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}} event: content_block_delta data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}} // Additional text deltas... event: content_block_stop data: {"type": "content_block_stop", "index": 1} event: message_delta data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}} event: message_stop data: {"type": "message_stop"}
Acerca del comportamiento de streaming con el pensamiento
Al utilizar el streaming con la función de pensar habilitada, es posible que notes que el texto a veces llega en trozos más grandes y se alternan con una token-by-token entrega más pequeña. Este es el comportamiento esperado, especialmente cuando se trata de pensar con contenido. El sistema de streaming necesita procesar el contenido en lotes para obtener un rendimiento óptimo, lo que puede dar lugar a este patrón de entrega.
Pensamiento ampliado con el uso de herramientas
El pensamiento extendido se puede utilizar además de Uso de herramienta permitir razonar Claude a través de la selección de herramientas y el procesamiento de los resultados. Cuando utilices el pensamiento prolongado con el uso de herramientas, ten en cuenta las siguientes limitaciones:
-
Limitación de la elección de herramientas: el uso de herramientas solo con el pensamiento es compatible
tool_choice: any
. No admite proporcionar una herramienta específica ni ningún otro valor.auto
-
Preservar los bloques de pensamiento: durante el uso de la herramienta, debes devolver los bloques de pensamiento a la API para recibir el último mensaje de asistente. Vuelva a incluir el bloque completo sin modificar en la API para mantener la continuidad del razonamiento.
Así es como funciona la administración de ventanas contextuales con las herramientas:
{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "tools": [ { "name": "get_weather", "description": "Get current weather for a location", "input_schema": { "type": "object", "properties": { "location": { "type": "string" } }, "required": [ "location" ] } } ], "messages": [ { "role": "user", "content": "What's the weather in Paris?" } ] }
La primera respuesta es la siguiente:
{ "content": [ { "type": "thinking", "thinking": "The user wants to know the current weather in Paris. I have access to a function `get_weather`...", "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxYsNrcs...." }, { "type": "text", "text": "I can help you get the current weather information for Paris. Let me check that for you" }, { "type": "tool_use", "id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "name": "get_weather", "input": { "location": "Paris" } } ] }
Si continúa la conversación con el uso de la herramienta, se generará otra respuesta. Observe que thinking_block
se transmite tanto el como eltool_use_block
. Si esto no se transfiere, se produce un error.
{ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 10000, "thinking": { "type": "enabled", "budget_tokens": 4000 }, "tools": [ { "name": "get_weather", "description": "Get current weather for a location", "input_schema": { "type": "object", "properties": { "location": { "type": "string" } }, "required": [ "location" ] } } ], "messages": [ { "role": "user", "content": "What's the weather in Paris?" }, { "role": "assistant", "content": [ { "type": "thinking", "thinking": "The user wants to know the current weather in Paris. I have access to a function `get_weather`…", "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxY", }, { "type": "tool_use", "id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "name": "get_weather", "input": { "location": "Paris" } } ] }, { "role": "user", "content": [ { "type": "tool_result", "tool_use_id": "toolu_01CswdEQBMshySk6Y9DFKrfq", "content": "Current temperature: 88°F" } ] } ] }
La respuesta de la API ahora solo incluirá texto
{ "content": [ { "type": "text", "text": "Currently in Paris, the temperature is 88°F (31°C)" } ] }
Preserva los bloques de pensamiento
Durante el uso de la herramienta, debes devolver los bloques de pensamiento a la API y debes incluir el bloque completo sin modificar en la API. Esto es fundamental para mantener el flujo de razonamiento y la integridad de la conversación del modelo.
sugerencia
Si bien puedes omitir thinking
los bloqueos de los cambios de assistant
rol anteriores, te sugerimos que siempre pases todos los bloques de reflexión a la API para cualquier conversación que tenga lugar durante varios turnos. La API hará lo siguiente:
-
Filtra automáticamente los bloques de pensamiento proporcionados
-
Utilice los bloques de pensamiento relevantes necesarios para preservar el razonamiento del modelo
-
Facture únicamente las fichas de entrada de los bloques que se muestran a Claude
Cuando Claude invoca herramientas, está pausando la construcción de una respuesta para esperar información externa. Cuando se devuelvan los resultados de la herramienta, Claude seguirá creando la respuesta existente. Esto requiere conservar los bloques de pensamiento durante el uso de la herramienta, por las siguientes razones:
-
Continuidad del razonamiento: los bloques de pensamiento capturan Claude el step-by-step razonamiento que dio lugar a la solicitud de herramientas. Cuando publicas los resultados de una herramienta, si incluyes la idea original, te aseguras de que Claude puedas continuar con su razonamiento desde donde la dejaste.
-
Mantenimiento del contexto: si bien los resultados de las herramientas aparecen como mensajes de usuario en la estructura de la API, forman parte de un flujo de razonamiento continuo. Preservar los bloques de pensamiento mantiene este flujo conceptual en varias llamadas a la API.
importante
Al proporcionar bloques de reflexión, toda la secuencia de bloques de reflexión consecutivos debe coincidir con los resultados generados por el modelo durante la solicitud original; no se puede reorganizar ni modificar la secuencia de estos bloques.
Pensamiento intercalado (beta)
aviso
Interleaved thinking se pone a su disposición como un «Servicio beta», tal y como se define en las Condiciones del servicio. AWS Está sujeto a su acuerdo con él, a las condiciones del AWS servicio AWS y al modelo de EULA aplicable.
ClaudeCuatro modelos admiten el pensamiento intercalado, una función que permite pensar entre las llamadas Claude a las herramientas y ejecutar razonamientos más sofisticados tras recibir los resultados de las herramientas. Esto permite interacciones entre agentes más complejas, en las que se Claude pueden realizar las siguientes tareas:
-
Razone los resultados de una consulta de herramientas antes de decidir qué hacer a continuación
-
Encadena varias llamadas a herramientas con pasos de razonamiento intermedios
-
Tome decisiones más matizadas en función de resultados intermedios
Para permitir el pensamiento intercalado, añade el encabezado beta interleaved-thinking-2025-05-14
a tu solicitud de API.
nota
Con el pensamiento intercalado, se budget_tokens
puede superar el max_tokens
parámetro, ya que representa el presupuesto total de todos los bloques de reflexión dentro de un turno de asistente.
Pensamiento ampliado con rápido almacenamiento en caché
El almacenamiento rápido en caché con pensamiento tiene varias consideraciones importantes:
Eliminación del contexto de Thinking Block
-
Los bloques de pensamiento de los turnos anteriores se eliminan del contexto, lo que puede afectar a los puntos de interrupción de la caché.
-
Al continuar las conversaciones sobre el uso de la herramienta, los bloques de pensamiento se almacenan en caché y cuentan como símbolos de entrada cuando se leen desde la memoria caché. Esto supone una compensación: los bloques pensantes no consumen visualmente el espacio de la ventana de contexto, pero sí que se tienen en cuenta para el uso de los tokens de entrada cuando se almacenan en caché.
-
Si el pensamiento se desactiva, las solicitudes fallarán si dejas pasar el contenido pensado en el turno de uso actual de la herramienta. En otros contextos, el contenido pensado que se pasa a la API simplemente se ignora.
Patrones de invalidación de caché
-
Los cambios en los parámetros de pensamiento (como habilitar, deshabilitar o modificar la asignación presupuestaria) invalidan los puntos de interrupción de la memoria caché de los mensajes.
-
Pensamiento intercalado (beta)amplifica la invalidación de la memoria caché, ya que pueden producirse bloqueos de pensamiento entre varias llamadas a una herramienta.
-
Las instrucciones y herramientas del sistema permanecen en caché a pesar de pensar en cambiar los parámetros o eliminar un bloque.
nota
Si bien se eliminan las trabas que dificultan los cálculos contextuales y engorrosos, es preciso mantenerlas al continuar las conversaciones relacionadas con el uso de herramientas, especialmente si se trata de ideas intercaladas.
Comprender el comportamiento del almacenamiento en caché de los bloques de pensamiento
Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques pensantes muestran un comportamiento de almacenamiento en caché específico que afecta al recuento de fichas. La siguiente secuencia demuestra cómo funciona esto.
El almacenamiento en caché solo se produce cuando se realiza una solicitud posterior que incluye los resultados de la herramienta.
Cuando se realiza la siguiente solicitud, se puede almacenar en caché el historial de la conversación anterior (incluidos los bloques de reflexión).
Estos bloques de pensamiento almacenados en caché cuentan como símbolos de entrada en tus métricas de uso cuando se leen de la caché.
Cuando se incluye un bloque de non-tool-result usuario, todos los bloques de pensamiento anteriores se ignoran y se eliminan del contexto.
A continuación, se muestra un ejemplo detallado de un flujo:
Solicitud 1:
User: "What's the weather in Paris?"
Respuesta 1:
[thinking_block 1] + [tool_use block 1]
Solicitud 2:
User: "What's the weather in Paris?", Assistant: [thinking_block_1] + [tool_use block 1], User: [tool_result_1, cache=True]
Respuesta 2:
[thinking_block 2] + [text block 2]
La solicitud 2 escribe en caché el contenido de la solicitud (no la respuesta). La caché incluye el mensaje original del usuario, el primer bloque de reflexión, el bloque de uso de la herramienta y el resultado de la herramienta.
Solicitud 3:
User: ["What's the weather in Paris?"], Assistant: [thinking_block_1] + [tool_use block 1], User: [tool_result_1, cache=True], Assistant: [thinking_block_2] + [text block 2], User: [Text response, cache=True]
Como se incluyó un bloque de non-tool-result usuario, se ignoran todos los bloques de pensamiento anteriores. Esta solicitud se procesará de la misma manera que la siguiente:
Solicitud 3 alternativa:
User: ["What's the weather in Paris?"] Assistant: [tool_use block 1] User: [tool_result_1, cache=True] Assistant: [text block 2] User: [Text response, cache=True]
Este comportamiento es constante tanto si se utiliza el pensamiento regular como el pensamiento intercalado.
Maximice el tamaño de las fichas y de la ventana de contexto con una reflexión más amplia
En Claude los modelos más antiguos (anteriores aClaude 3.7 Sonnet), si la suma de los tokens instantáneos y los max_tokens superaba la ventana de contexto del modelo, el sistema ajustaba automáticamente los max_tokens para que se ajustaran al límite del contexto. Esto significaba que se podía establecer un valor de max_tokens elevado y el sistema lo reduciría silenciosamente según fuera necesario. Con los modelos Claude 3.7 y 4 max_tokens
(que incluyen el presupuesto para pensar cuando se permite pensar), se impone un límite estricto. El sistema ahora devuelve un error de validación si los símbolos de solicitud + max_tokens superan el tamaño de la ventana de contexto.
La ventana de contexto con pensamiento extendido
Al calcular el uso de la ventana contextual con el pensamiento activado, hay que tener en cuenta algunas consideraciones:
-
Los bloques pensantes de los turnos anteriores se eliminan y no se cuentan en la ventana de contexto.
-
Pensar en el turno actual se tiene en cuenta para el
max_tokens
límite de ese turno.
La ventana de contexto efectiva se calcula de la siguiente manera: ventana de contexto = (fichas de entrada actuales, fichas de pensamiento anteriores) + (fichas de reflexión + fichas de pensamiento cifradas + fichas de salida de texto).
Gestionar las fichas con una mayor reflexión y un mayor uso de herramientas
Cuando se utiliza el pensamiento extendido con el uso de herramientas, los bloques de pensamiento deben conservarse de forma explícita y devolverse junto con los resultados de la herramienta. El cálculo efectivo de la ventana de contexto para ampliar el pensamiento con el uso de herramientas es el siguiente:
context window = (current input tokens + previous thinking tokens + tool use tokens) + (thinking tokens + encrypted thinking tokens + text output tokens)
Gestionar los tokens con una visión amplia
Dada la ventana de contexto y el max_tokens
comportamiento con los modelos de pensamiento extendido Claude 3.7 y 4, es posible que tengas que realizar una de las siguientes acciones:
-
Supervisa y administra tu uso de fichas de forma más activa.
-
Ajusta
max_tokens
los valores a medida que cambia la longitud del mensaje. -
Ten en cuenta que los bloqueos de pensamiento anteriores no se acumulan en tu ventana de contexto. Este cambio se ha realizado para proporcionar un comportamiento más predecible y transparente, especialmente dado que los límites máximos de fichas han aumentado considerablemente.
Pensamiento extendido: consideraciones sobre el costo de los tokens
El proceso de reflexión conlleva cargos por lo siguiente:
-
Fichas que se utilizan al pensar (fichas de salida)
-
Los bloques de pensamiento del último turno del asistente se incluyen en las solicitudes posteriores (fichas de entrada)
-
Tokens de salida de texto estándar
sugerencia
Cuando se habilita el pensamiento extendido, se incluye automáticamente un sistema especializado de 28 o 29 fichas para respaldar esta función.
El budget_tokens
parámetro determina el número máximo de fichas Claude que puede utilizar para su proceso de razonamiento interno. Los presupuestos más grandes pueden mejorar la calidad de la respuesta al permitir un análisis más exhaustivo de los problemas complejos, aunque es Claude posible que no se utilice todo el presupuesto asignado, especialmente en rangos superiores a 32 000.
Con el pensamiento intercalado, se budget_tokens
puede superar el max_tokens
parámetro, ya que representa el presupuesto total de todos los bloques de reflexión en un solo turno de asistente.
Cuando utilices el pensamiento resumido, ten en cuenta la siguiente información:
-
Tokens de entrada: Tokens incluidos en tu solicitud original
-
Fichas de salida (facturadas): las fichas pensantes originales que Claude se generaron internamente
-
Fichas de salida (visibles): las fichas de pensamiento resumidas que ves en la respuesta
-
Sin cargo: las fichas se utilizan para generar el resumen
-
El
summary_status
campo puede indicar si los límites del token afectan al resumen -
El recuento de tokens de salida facturados no coincidirá con el recuento de tokens visibles en la respuesta. Se te facturará por todo el proceso de reflexión, no por el resumen que veas.