As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurar a geração de respostas para modelos de raciocínio com bases de conhecimento
Determinados modelos de base conseguem aplicar o raciocínio de modelo, caso em que eles assumem uma tarefa maior e complexa e a dividem em etapas menores e mais simples. Esse processo, geralmente chamado de raciocínio em cadeia de pensamento (CoT), pode melhorar a precisão do modelo, dando a ele a chance de pensar antes de responder. O raciocínio do modelo é mais útil para tarefas como análise em várias etapas, problemas matemáticos e tarefas de raciocínio complexo. Para obter mais informações, consulte Melhorar as respostas do modelo com o raciocínio de modelo.
nota
Esta página descreve como usar a configuração de raciocínio especificamente para as Bases de Conhecimento Amazon Bedrock. Para ter informações sobre como configurar o raciocínio para invocação direta do modelo usando a API InvokeModel, consulte Melhorar as respostas do modelo com o raciocínio de modelo.
Quando o raciocínio de modelo está habilitado, isso pode aumentar a precisão ao oferecer melhores resultados de citação, mas pode aumentar a latência. A seguir são apresentadas algumas considerações ao consultar as fontes de dados e gerar respostas usando modelos de raciocínio com as Bases de Conhecimento do Amazon Bedrock.
Tópicos
Modelos de raciocínio
O raciocínio de modelo está disponível para os modelos a seguir.
| Modelo de base | ID do modelo | Número de tokens | Configuração de raciocínio |
|---|---|---|---|
| Anthropic Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 | Esse modelo terá 32.768 tokens, que incluem tokens de saída e de raciocínio. | O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado. |
| Anthropic Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | Esse modelo terá 65.536 tokens, que incluem tokens de saída e de raciocínio. | O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado. |
| Anthropic Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 | Esse modelo terá 65.536 tokens, que incluem tokens de saída e de raciocínio. | O raciocínio pode ser habilitado ou desabilitado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desabilitado. |
| DeepSeek-R1 da DeepSeek | deepseek.r1-v1:0 | Esse modelo terá 8.192 tokens, que incluem tokens de saída e de raciocínio. O número de tokens de raciocínio não pode ser configurado e o número máximo de tokens de saída não deve ser maior que 8.192. | O raciocínio está sempre habilitado para esse modelo. O modelo não permite ativar e desativar o recurso de raciocínio. |
Usar o raciocínio de modelo para o Claude 3.7 Sonnet
nota
O raciocínio de modelo está sempre habilitado para o modelo DeepSeek-R1. O modelo não permite ativar e desativar o recurso de raciocínio.
Ao usar o modelo Claude 3.7 Sonnet, o raciocínio de modelo pode ser habilitado ou desabilitado usando o parâmetro additionalModelRequestFields da API RetrieveAndGenerate. Esse parâmetro aceita qualquer par de chave-valor. Por exemplo, você pode adicionar um campo reasoningConfig e usar uma chave type para habilitar ou desabilitar o raciocínio, conforme mostrado abaixo.
{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }
Considerações gerais
A seguir são apresentadas algumas considerações gerais sobre o uso dos modelos de raciocínio para bases de conhecimento.
-
Os modelos de raciocínio terão até cinco minutos para responder a uma consulta. Se o modelo levar mais de cinco minutos para responder à consulta, isso resultará em um tempo limite.
-
Para evitar exceder o tempo limite de cinco minutos, o raciocínio de modelo é habilitado somente na etapa de geração, quando você configura as consultas e a geração de respostas. A etapa de orquestração não pode ter um modelo de raciocínio.
-
Os modelos de raciocínio podem usar até 8.192 tokens para responder às consultas, o que incluirá tanto os tokens de saída quanto os de raciocínio. Qualquer solicitação que tenha uma solicitação de número máximo de tokens de saída maior que esse limite resultará em um erro.
Recuperar e gerar considerações sobre a API
Veja a seguir algumas considerações importantes ao usar a API RetrieveAndGenerate para modelos de raciocínio.
-
Por padrão, quando o raciocínio está desabilitado para todos os modelos, inclusive para o Claude 3.7 Sonnet, a temperatura é ajustada para zero. Quando o raciocínio está habilitado, a temperatura deve ser ajustada para um.
"inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } } -
Quando o raciocínio está habilitado para o modelo Claude 3.7 Sonnet, é necessário desabilitar o parâmetro Top P. Top P é um campo adicional de solicitação de modelo que determina o percentil de possíveis tokens a serem selecionados durante a geração. Por padrão, o valor Top P para outros modelos Claude da Anthropic é um. Para o modelo Claude 3.7 Sonnet, esse valor será desabilitado por padrão.
-
Quando o raciocínio de modelo está em uso, pode haver um aumento de latência. Ao usar essa operação de API e a operação de API
RetrieveAndGenerateStream, pode ser que você note um atraso no recebimento da resposta da API.