Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Comprendere il ragionamento modello con il ragionamento esteso
Nota
Questa documentazione è per la versione 1. Per informazioni su come usare Extended thinking nella versione 2, visita Extended thinking.
Il pensiero esteso è un'impostazione che consente a un modello di affrontare problemi complessi con una fase di ragionamento distinta. Durante questa fase, genera innanzitutto contenuti di ragionamento dedicati in reasoningContent blocchi che implicano un'esplorazione sistemica passo dopo passo di un problema. Il modello riflette quindi sul suo ragionamento, identificando potenziali errori o approcci alternativi. Quindi, finalizza la sua risposta. Ciò fornisce una risposta finale chiara e allo stesso tempo fornisce informazioni trasparenti sul processo del modello
A causa degli ampi requisiti computazionali di Extended Thinking, Nova consente l'abilitazione selettiva di un approccio ibrido. Ciò significa che puoi attivare il pensiero esteso per domande complesse e che richiedono meno tempo. Per le interrogazioni semplici o che richiedono una risposta rapida, puoi disabilitare il pensiero esteso per ridurre il carico di risorse computazionali.
Come funziona il ragionamento esteso
Quando il pensiero esteso è abilitato, Nova crea blocchi ReasoningContent nella sua risposta da cui emette il suo processo di pensiero interno. Il modello utilizza questo ragionamento per informare la sua risposta testuale finale, creando una netta separazione tra la fase di riflessione e la risposta finale.
Di seguito è riportata una risposta API che include reasoningContent blocchi seguiti da blocchi di contenuto testuale:
{ "output": { "message": { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "Let me analyze this optimization problem systematically. First, I need to understand the constraints: 5 warehouses, 12 distribution centers, 200 retail locations, with a 50-mile maximum distance requirement. This is a classic facility location problem with distance constraints...", } } }, { "text": "Based on my analysis, I recommend implementing a two-phase optimization approach. Phase 1 should focus on clustering retail locations using k-means algorithm to identify natural distribution center catchment areas..." } ] } } }
Utilizzo di un ragionamento esteso
Di seguito è riportato un esempio di chiamata all'API Converse con il ragionamento esteso abilitato:
import boto3 import json client = boto3.client("bedrock-runtime", region_name="us-east-1") # Enable extended thinking for complex problem-solving response = client.converse( modelId="amazon.nova-lite-1-5-v1:0", messages=[{ "role": "user", "content": [{"text": "I need to optimize a logistics network with 5 warehouses, 12 distribution centers, and 200 retail locations. The goal is to minimize total transportation costs while ensuring no location is more than 50 miles from a distribution center. What approach should I take?"}] }], inferenceConfig={ "maxTokens": 40000, "temperature": 0 }, additionalModelRequestFields={ "reasoningConfig": { "type": "enabled", "maxReasoningEffort": "high" } } ) # The response will contain reasoning blocks followed by the final answer for block in response["output"]["message"]["content"]: if "reasoningContent" in block: reasoning_text = block["reasoningContent"]["reasoningText"]["text"] print(f"Nova's thinking process:\n{reasoning_text}\n") elif "text" in block: print(f"Final recommendation:\n{block['text']}")
Se escludi l'reasoningConfigelemento, il modello disabiliterà il pensiero esteso per impostazione predefinita.
Opzioni di configurazione Extended Thinking
Nova fornisce controlli flessibili per un comportamento di pensiero esteso tramite il parametro ReasoningConfig, che consente di ottimizzare l'allocazione del calcolo del tempo di inferenza per esigenze specifiche.
Controllo del ragionamento
È possibile alternare le capacità di pensiero estese tra due modalità. L'impostazione type su disabled (impostazione predefinita) significa che Nova utilizza un ragionamento latente efficiente, ottimizzando la velocità e l'efficienza. L'impostazione type su enabled attiva il pensiero esplicito esteso di Nova con un processo di ragionamento visibile.
Livelli di sforzo di ragionamento
Quando è abilitato il pensiero esteso, puoi controllare lo sforzo computazionale che Nova investe nel processo di ragionamento. L'impostazione maxReasoningEffort su un valore basso è adatta per attività moderatamente complesse che richiedono un ragionamento aggiuntivo. L'impostazione media è ideale per problemi complessi che richiedono un'analisi approfondita. L'impostazione alta fornisce il ragionamento più completo per attività estremamente complesse e sfaccettate, utilizzando fino a 32.000 token di ragionamento.
{ "modelId": "amazon.nova-lite-1-5-v1:0", "inferenceConfig": { "maxTokens": 40000, "temperature": 0 }, "additionalModelRequestFields": { "reasoningConfig": { "type": "enabled", "maxReasoningEffort": "high" } } }
Nota
Durante l'utilizzo low e medium le impostazioni, il contenuto del ragionamento verrà trasmesso in streaming man mano che ogni token viene generato durante l'utilizzo. ConverseStream Tuttavia, high funziona in modo diverso, applicando approcci diversi per migliorare la qualità, con il risultato di riportare tutto il contenuto del ragionamento in una parte finale. Ciò potrebbe aumentare in modo significativo il tempo necessario per la creazione del primo token e richiedere un ulteriore lavoro da parte del client per una gestione efficace.
Le migliori pratiche per una riflessione estesa
Identificazione dei casi d'uso del ragionamento esteso
Questa sezione esaminerà i potenziali casi d'uso in cui il ragionamento esteso è e non è applicabile.
Usa i casi in cui è applicabile il pensiero esteso:
-
Risoluzione di problemi complessi: calcoli e dimostrazioni matematiche in più fasi, sfide algoritmiche che richiedono approcci sistematici, analisi scientifiche con più variabili interdipendenti e modelli finanziari con scenari e vincoli complessi traggono tutti vantaggio dalla capacità del modello di risolvere i problemi in modo metodico in una fase di riflessione dedicata.
-
Attività di codifica avanzate: ampio refactoring della base di codice su più file e dipendenze, scenari di debug complessi che richiedono l'eliminazione sistematica delle possibilità, progettazione dell'architettura di sistema con molteplici considerazioni tecniche e pianificazione della migrazione su più servizi e piattaforme traggono tutti vantaggio dalla capacità di Nova di ragionare in modo completo sullo spazio problematico prima di proporre soluzioni.
-
Attività analitiche: l'analisi dei documenti che richiede la sintesi tra più fonti, la pianificazione strategica con priorità e vincoli concorrenti, le attività di ricerca che richiedono la valutazione di prove contrastanti e l'analisi legale o di conformità che richiede un'attenta considerazione delle normative traggono tutti vantaggio dalla capacità del modello di elaborare sistematicamente informazioni complesse.
-
Pianificazione in più fasi: la pianificazione del progetto con dipendenze e vincoli di risorse, la progettazione del flusso di lavoro che richiede l'ottimizzazione su più criteri, l'analisi del rischio che richiede la valutazione di più scenari e l'ottimizzazione dei processi aziendali che richiede una valutazione sistematica traggono tutti vantaggio dalle capacità di pianificazione avanzate di Nova.
Casi d'uso in cui il ragionamento esteso non è applicabile:
-
Domande semplici: domande concrete di base come «Qual è la capitale della Francia?» , definizioni semplici come «Cosa significa API?» , semplici calcoli che coinvolgono l'aritmetica di base e il recupero diretto delle informazioni dal contesto fornito funzionano tutti in modo efficiente con la modalità di ragionamento latente predefinita di Nova.
-
Applicazioni critiche per la velocità: le applicazioni di chat in tempo reale in cui la latenza è importante, le chiamate API ad alta frequenza nei sistemi di produzione, la semplice generazione di contenuti per casi d'uso ad alto volume e le attività di classificazione o analisi del sentiment di base sono tutte caratteristiche che traggono vantaggio dai tempi di risposta più rapidi del ragionamento latente.
-
Carichi di lavoro sensibili ai costi: elaborazione di grandi volumi in cui velocità e costi contano più della profondità del ragionamento, semplici attività di automazione con logica semplice, moderazione o filtraggio dei contenuti di base e elaborazione e trasformazione dei dati di routine in genere non richiedono l'investimento computazionale aggiuntivo di Extended Thinking.
Scelta dei livelli di sforzo di ragionamento
-
Basso: funziona in modo ottimale per la revisione del codice e i suggerimenti di miglioramento, per attività di analisi di base che richiedono ulteriori considerazioni, per la semplice risoluzione dei problemi che trae vantaggio da un approccio strutturato e per la maggior parte delle attività di day-to-day sviluppo con complessità moderata. Questo livello offre un miglioramento significativo del ragionamento mantenendo al contempo caratteristiche di costi e latenza ragionevoli.
-
Medio: ideale per scenari di debug complessi che richiedono indagini sistematiche, calcoli in più fasi con interdipendenze, attività di pianificazione moderate con vincoli multipli e analisi che richiedono la valutazione di diverse alternative. Questo livello fornisce una notevole profondità di ragionamento per i problemi che traggono vantaggio da un'analisi più approfondita.
-
Alto: offre i migliori risultati per problemi e dimostrazioni matematiche avanzati, progettazione di sistemi complessi con molteplici considerazioni architettoniche, attività di ricerca che richiedono analisi e sintesi approfondite, scenari decisionali critici con implicazioni significative e flussi di lavoro in più fasi che richiedono un'attenta pianificazione e verifica. Questo livello consente a Nova di investire ingenti risorse computazionali per risolvere problemi complessi in modo completo.
Gestione dei costi e delle prestazioni
Ottimizzazione dei costi
L'ottimizzazione dei costi richiede un'attenta applicazione di un pensiero esteso. Utilizza il pensiero esteso solo quando la complessità giustifica il costo computazionale aggiuntivo, poiché i token di ragionamento vengono fatturati come token di output. Inizia con uno sforzo minimo e aumenta in modo incrementale in base ai risultati per trovare l'equilibrio ottimale per i tuoi casi d'uso. Monitora i modelli di utilizzo dei token di ragionamento nelle tue applicazioni per identificare opportunità di ottimizzazione. Prendi in considerazione l'elaborazione in batch per attività non-time-sensitive impegnative che richiedono ragionamenti e riducono i costi. Ricorda che il ragionamento latente con il pensiero esteso disabilitato gestisce la maggior parte delle attività in modo efficace e dovrebbe rimanere il tuo approccio predefinito.
Ottimizzazione delle prestazioni
L'ottimizzazione delle prestazioni implica l'impostazione di valori MaxTokens appropriati per soddisfare sia il ragionamento che il contenuto della risposta finale. Utilizza lo streaming per attività di ragionamento complesse per migliorare le prestazioni percepite e l'esperienza utente. Memorizza i modelli di ragionamento per i tipi di problemi più frequenti, ove possibile. Valuta il livello di sforzo di ragionamento basato sulle aspettative degli utenti e sui vincoli di tempo, bilanciando un'analisi approfondita con i tempi di risposta richiesti.