Modelos de raciocínio Usar o raciocínio de modelo para o Claude 3.7 Sonnet Considerações gerais Recuperar e gerar considerações sobre a API

Configurar a geração de respostas para modelos de raciocínio com bases de conhecimento

Determinados modelos de base conseguem aplicar o raciocínio de modelo, caso em que eles assumem uma tarefa maior e complexa e a dividem em etapas menores e mais simples. Esse processo, geralmente chamado de raciocínio em cadeia de pensamento (CoT), pode melhorar a precisão do modelo, dando a ele a chance de pensar antes de responder. O raciocínio do modelo é mais útil para tarefas como análise em várias etapas, problemas matemáticos e tarefas de raciocínio complexo. Para obter mais informações, consulte Melhorar as respostas do modelo com o raciocínio de modelo.

nota

Esta página descreve como usar a configuração de raciocínio especificamente para as Bases de Conhecimento Amazon Bedrock. Para ter informações sobre como configurar o raciocínio para invocação direta do modelo usando a API InvokeModel, consulte Melhorar as respostas do modelo com o raciocínio de modelo.

Quando o raciocínio de modelo está habilitado, isso pode aumentar a precisão ao oferecer melhores resultados de citação, mas pode aumentar a latência. A seguir são apresentadas algumas considerações ao consultar as fontes de dados e gerar respostas usando modelos de raciocínio com as Bases de Conhecimento do Amazon Bedrock.

Tópicos

Modelos de raciocínio
Usar o raciocínio de modelo para o Claude 3.7 Sonnet
Considerações gerais
Recuperar e gerar considerações sobre a API

Modelos de raciocínio

O raciocínio de modelo está disponível para os modelos a seguir.

Modelo de base	ID do modelo	Número de tokens	Configuração de raciocínio
Anthropic Claude Opus 4	anthropic.claude-opus-4-20250514-v1:0	Esse modelo terá 32.768 tokens, que incluem tokens de saída e de raciocínio.	O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado.
Anthropic Claude Sonnet 4	anthropic.claude-sonnet-4-20250514-v1:0	Esse modelo terá 65.536 tokens, que incluem tokens de saída e de raciocínio.	O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado.
Anthropic Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v1:0	Esse modelo terá 65.536 tokens, que incluem tokens de saída e de raciocínio.	O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado.
DeepSeek-R1 da DeepSeek	deepseek.r1-v1:0	Esse modelo terá 8.192 tokens, que incluem tokens de saída e de raciocínio. O número de tokens de raciocínio não pode ser configurado e o número máximo de tokens de saída não deve ser maior que 8.192.	O raciocínio está sempre habilitado para esse modelo. O modelo não permite ativar e desativar o recurso de raciocínio.

Usar o raciocínio de modelo para o Claude 3.7 Sonnet

nota

O raciocínio de modelo está sempre habilitado para o modelo DeepSeek-R1. O modelo não permite ativar e desativar o recurso de raciocínio.

Ao usar o modelo Claude 3.7 Sonnet, o raciocínio de modelo pode ser habilitado ou desabilitado usando o parâmetro additionalModelRequestFields da API RetrieveAndGenerate. Esse parâmetro aceita qualquer par de chave-valor. Por exemplo, você pode adicionar um campo reasoningConfig e usar uma chave type para habilitar ou desabilitar o raciocínio, conforme mostrado abaixo.


{
   "input": { 
      "text": "string",
      "retrieveAndGenerateConfiguration": { 
      "knowledgeBaseConfiguration": { 
         "generationConfiguration": { 
            "additionalModelRequestFields": {
                "reasoningConfig" : {
                    "type": "enabled",
                    "budget_tokens": INT_VAL, #required when enabled
                }
            }
         },
         "knowledgeBaseId": "string",
      },
      "type": "string"
   },
   "sessionId": "string"
}

Considerações gerais

A seguir são apresentadas algumas considerações gerais sobre o uso dos modelos de raciocínio para bases de conhecimento.

Os modelos de raciocínio terão até cinco minutos para responder a uma consulta. Se o modelo levar mais de cinco minutos para responder à consulta, isso resultará em um tempo limite.
Para evitar exceder o tempo limite de cinco minutos, o raciocínio de modelo é habilitado somente na etapa de geração, quando você configura as consultas e a geração de respostas. A etapa de orquestração não pode ter um modelo de raciocínio.
Os modelos de raciocínio podem usar até 8.192 tokens para responder às consultas, o que incluirá tanto os tokens de saída quanto os de raciocínio. Qualquer solicitação que tenha uma solicitação de número máximo de tokens de saída maior que esse limite resultará em um erro.

Recuperar e gerar considerações sobre a API

Veja a seguir algumas considerações importantes ao usar a API RetrieveAndGenerate para modelos de raciocínio.

Por padrão, quando o raciocínio está desabilitado para todos os modelos, inclusive para o Claude 3.7 Sonnet, a temperatura é ajustada para zero. Quando o raciocínio está habilitado, a temperatura deve ser ajustada para um.
```
"inferenceConfig": {
    "textInferenceConfig": {
        "maxTokens": 8192,
        "temperature": 1
    }
}
```
Quando o raciocínio está habilitado para o modelo Claude 3.7 Sonnet, é necessário desabilitar o parâmetro Top P. Top P é um campo adicional de solicitação de modelo que determina o percentil de possíveis tokens a serem selecionados durante a geração. Por padrão, o valor Top P para outros modelos Claude da Anthropic é um. Para o modelo Claude 3.7 Sonnet, esse valor será desabilitado por padrão.
Quando o raciocínio de modelo está em uso, pode haver um aumento de latência. Ao usar essa operação de API e a operação de API RetrieveAndGenerateStream, pode ser que você note um atraso no recebimento da resposta da API.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar e personalizar consultas e respostas

Implantar a base de conhecimento para a aplicação