Configuración de la generación de respuestas para modelos de razonamiento con bases de conocimiento - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de la generación de respuestas para modelos de razonamiento con bases de conocimiento

Algunos modelos fundacionales son capaces de realizar un razonamiento de modelos, mediante el cual pueden tomar una tarea más grande y compleja y dividirla en pasos más pequeños y sencillos. Este proceso, que a menudo se denomina “razonamiento de cadena de pensamiento (CoT)” puede mejorar la precisión del modelo al darle la oportunidad de pensar antes de responder. El razonamiento del modelo es más útil para tareas como el análisis de varios pasos, problemas matemáticos y tareas de razonamiento complejas. Para obtener más información, consulte Mejora de las respuestas de los modelos con el razonamiento de modelos.

nota

En esta página se describe cómo utilizar la configuración de razonamiento específicamente para Bases de conocimiento de Amazon Bedrock. Para obtener información sobre cómo configurar el razonamiento para la invocación directa del modelo mediante la API InvokeModel, consulte Mejora de las respuestas de los modelos con el razonamiento de modelos.

Cuando se habilita el razonamiento de modelos, se puede mejorar la precisión con mejores resultados en las citas, pero también se puede producir un aumento de la latencia. Las siguientes son algunas consideraciones al consultar los orígenes de datos y generar respuestas mediante modelos de razonamiento con Bases de conocimiento de Amazon Bedrock.

Modelos de razonamiento

El razonamiento del modelo está disponible para los siguientes modelos.

Modelo fundacional ID del modelo Número de tokens Configuración de razonamiento
Anthropic Claude Opus 4 anthropic.claude-opus-4-20250514-v1:0 Este modelo tendrá 32 768 tokens, que incluyen tanto los tokens de salida como los de razonamiento. El razonamiento se puede activar o desactivar en este modelo mediante un presupuesto de tokens configurable. El razonamiento está deshabilitado de forma predeterminada.
Anthropic Claude Sonnet 4 anthropic.claude-sonnet-4-20250514-v1:0 Este modelo tendrá 65 536 tokens, que incluyen tanto los tokens de salida como los de razonamiento. El razonamiento se puede activar o desactivar en este modelo mediante un presupuesto de tokens configurable. El razonamiento está deshabilitado de forma predeterminada.
Anthropic Claude 3.7 Sonnet anthropic.claude-3-7-sonnet-20250219-v1:0 Este modelo tendrá 65 536 tokens, que incluyen tanto los tokens de salida como los de razonamiento. El razonamiento se puede activar o desactivar en este modelo mediante un presupuesto de tokens configurable. El razonamiento está deshabilitado de forma predeterminada.
DeepSeek DeepSeek-R1 deepseek.r1-v1:0 Este modelo tendrá 8192 tokens, que incluyen tanto los tokens de salida como los de razonamiento. La cantidad de tokens de pensamiento no se puede configurar y la cantidad máxima de tokens de salida no debe ser superior a 8192. El razonamiento siempre está habilitado para este modelo. El modelo no admite la activación y desactivación de la capacidad de razonamiento.

Uso del razonamiento de modelos para Claude 3.7 Sonnet

nota

El razonamiento de modelos siempre está habilitado para el modelo DeepSeek-R1. El modelo no admite la activación y desactivación de la capacidad de razonamiento.

Cuando se utiliza el modelo Claude 3.7 Sonnet, el razonamiento de modelos se puede activar o desactivar mediante el parámetro additionalModelRequestFields de la API RetrieveAndGenerate. Este parámetro acepta cualquier par de clave-valor. Por ejemplo, puede añadir un campo reasoningConfig y utilizar una clave type para activar o desactivar el razonamiento, como se muestra a continuación.

{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }

Consideraciones generales

Las siguientes son algunas consideraciones generales sobre el uso de los modelos de razonamiento para las bases de conocimiento.

  • Los modelos de razonamiento tendrán hasta cinco minutos para responder a una consulta. Si el modelo tarda más de cinco minutos en responder a la consulta, se agota el tiempo de espera.

  • Para evitar superar el tiempo de espera de cinco minutos, el razonamiento de modelos solo se habilita en el paso de generación cuando se configuran las consultas y la generación de respuestas. El paso de orquestación no puede tener la característica de razonamiento de modelos.

  • Los modelos de razonamiento pueden utilizar hasta 8192 tokens para responder a las consultas, que incluirán tanto los tokens de salida como los de pensamiento. Cualquier solicitud en la que se pida un número máximo de tokens de salida superior a este límite generará un error.

Consideraciones sobre la API de recuperación y generación

Las siguientes son algunas consideraciones al usar la API RetrieveAndGenerate para los modelos de razonamiento.

  • De forma predeterminada, cuando el razonamiento está desactivado en todos los modelos, incluido Claude 3.7 Sonnet, la temperatura se establece en cero. Cuando el razonamiento está activado, la temperatura debe establecerse en uno.

    "inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } }
  • El parámetro Top P debe estar desactivado cuando el razonamiento esté activado en el modelo Claude 3.7 Sonnet. Top P es un campo de solicitud de modelo adicional que determina el percentil de posibles tokens entre los que seleccionar durante la generación. De forma predeterminada, el valor Top P para otros modelos de Anthropic Claude es uno. Para el modelo Claude 3.7 Sonnet, este valor estará desactivado de forma predeterminada.

  • Cuando se utiliza el razonamiento de modelos, se puede producir un aumento de la latencia. Al utilizar esta operación de API y la operación de la API RetrieveAndGenerateStream, es posible que observe un retraso en la recepción de la respuesta de la API.