Configurare la generazione di risposte per modelli di ragionamento con Knowledge Bases - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurare la generazione di risposte per modelli di ragionamento con Knowledge Bases

Alcuni modelli di fondazione sono in grado di eseguire il ragionamento basato su modello, in cui eseguono un’attività più ampia e complessa e la suddividono in fasi più piccole e più semplici. Questo processo, spesso denominato ragionamento a catena di pensiero, può migliorare la precisione del modello dando al modello la possibilità di pensare prima di rispondere. Il ragionamento basato su modello è particolarmente utile per attività come l’analisi in più fasi, problemi matematici e attività di ragionamento complesse. Per ulteriori informazioni, consulta Migliorare le risposte del modello con il ragionamento basato su modello.

Nota

Questa pagina descrive come utilizzare la configurazione del ragionamento specificamente per Knowledge Base per Amazon Bedrock. Per informazioni sulla configurazione del ragionamento per l’invocazione diretta del modello tramite l’API InvokeModel, consultare Migliorare le risposte del modello con il ragionamento basato su modello.

Quando il ragionamento basato sui modelli è abilitato, può migliorare la precisione e generare risultati di citazione più accurati, ma può comportare un aumento della latenza. Di seguito sono riportate alcune considerazioni quando si interrogano le origini dati e si generano risposte utilizzando modelli di ragionamento con Knowledge Base per Amazon Bedrock.

Modelli di ragionamento

Il ragionamento basato su modello è disponibile per i seguenti modelli.

Modello di fondazione ID modello Numero di token Configurazione del ragionamento
Anthropic Claude Opus 4 anthropic.claude-opus-4-20250514-v1:0 Questo modello avrà 32.768 token, che includono sia token di output che token di ragionamento. Il ragionamento può essere abilitato o disabilitato per questo modello utilizzando un budget di token configurabile. Per impostazione predefinita, il ragionamento è disabilitato.
Anthropic Claude Sonnet 4 anthropic.claude-sonnet-4-20250514-v1:0 Questo modello avrà 65.536 token, che includono sia token di output che token di ragionamento. Il ragionamento può essere abilitato o disabilitato per questo modello utilizzando un budget di token configurabile. Per impostazione predefinita, il ragionamento è disabilitato.
Anthropic Claude 3.7 Sonnet anthropic.claude-3-7-sonnet-20250219-v1:0 Questo modello avrà 65.536 token, che includono sia token di output che token di ragionamento. Il ragionamento può essere abilitato o disabilitato per questo modello utilizzando un budget di token configurabile. Per impostazione predefinita, il ragionamento è disabilitato.
DeepSeek DeepSeek-R1 deepseek.r1-v1:0 Questo modello avrà 8.192 token, che includono sia token di output che token di ragionamento. Il numero di token di pensiero non può essere configurato e il numero massimo di token di output non deve essere superiore a 8.192. Il ragionamento è sempre abilitato per questo modello. Il modello non supporta l’attivazione e la disattivazione della funzionalità di ragionamento.

Utilizzo del ragionamento basato su modello per Claude 3.7 Sonnet

Nota

Il ragionamento basato su modello è sempre abilitato per il modello DeepSeek-R1. Il modello non supporta l’attivazione e la disattivazione della funzionalità di ragionamento.

Quando si utilizza il modello Claude 3.7 Sonnet, il ragionamento basato su modello può essere abilitato o disabilitato utilizzando il parametro additionalModelRequestFields dell’API RetrieveAndGenerate. Questo parametro accetta qualsiasi coppia chiave-valore. Ad esempio, è possibile aggiungere un campo reasoningConfig e utilizzare una chiave type per abilitare o disabilitare il ragionamento, come mostrato di seguito.

{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }

Considerazioni generali

Di seguito sono riportate alcune considerazioni generali sull’utilizzo dei modelli di ragionamento per Knowledge Bases.

  • I modelli di ragionamento hanno a disposizione fino a cinque minuti per rispondere a una domanda. Se il modello impiega più di cinque minuti per rispondere alla domanda, si verifica un timeout.

  • Per evitare il superamento del timeout di cinque minuti, il ragionamento basato su modello è abilitato solo nella fase di generazione, quando si configurano le query e la generazione delle risposte. La fase di orchestrazione non può avere il ragionamento basato su modello.

  • I modelli di ragionamento possono utilizzare fino a 8192 token per rispondere alle domande, che includono sia i token di output che quelli di ragionamento. Qualsiasi richiesta che richiede un numero massimo di token di output superiore a questo limite genera un errore.

Considerazioni sull’API RetrieveandGenerate

Di seguito sono riportate alcune considerazioni sull’utilizzo dell’API RetrieveAndGenerate per i modelli di ragionamento.

  • Per impostazione predefinita, quando il ragionamento è disabilitato per tutti i modelli, incluso Claude 3.7 Sonnet, la temperatura è impostata su zero. Quando il ragionamento è abilitato, la temperatura deve essere impostata su uno.

    "inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } }
  • Il parametro Top P deve essere disabilitato quando il ragionamento è abilitato per il modello Claude 3.7 Sonnet. Top P è un campo aggiuntivo di richiesta del modello che determina il percentile di possibili token da selezionare durante la generazione. Per impostazione predefinita, il valore Top P per gli altri modelli Anthropic Claude è uno. Per il modello Claude 3.7 Sonnet, questo valore è disabilitato per impostazione predefinita.

  • Quando si utilizza il ragionamento basato su modello, può comportare un aumento della latenza. Quando si utilizza l’operazione di questa API e l’operazione dell’API RetrieveAndGenerateStream, è possibile notare un ritardo nella ricezione della risposta dall’API.