Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Flusso di lavoro per valutatori e cicli Reflect-Refine
Questo flusso di lavoro fornisce un ciclo di feedback in cui un LLM genera un risultato e un altro valuta o critica il risultato. Ciò promuove l'autoriflessione, l'ottimizzazione e i miglioramenti iterativi.
Il flusso di lavoro del valutatore è ideale per scenari in cui la qualità, la precisione e l'allineamento dell'output sono importanti e in cui la generazione a passaggio singolo è inaffidabile o insufficiente. Questo flusso di lavoro eccelle quando gli agenti devono autocriticare, iterare e perfezionare i propri risultati, per soddisfare uno standard di correttezza più elevato o per esplorare alternative migliori basate sul feedback.
Questo flusso di lavoro è particolarmente efficace quando:
-
L'output include metriche di qualità soggettive (ad esempio stile, tono e leggibilità) o criteri oggettivi (ad esempio, correttezza, sicurezza e prestazioni).
-
L'agente deve ragionare sulla base di compromessi, valutare i vincoli o ottimizzare per raggiungere un obiettivo.
-
Sono necessarie ridondanza e garanzia di qualità integrate, specialmente in domini regolamentati, rivolti ai clienti o creativi.
-
Human-in-the-loop la revisione è costosa o non disponibile e si desidera una convalida autonoma.
Questo flusso di lavoro viene utilizzato per la generazione di contenuti, la sintesi e la revisione del codice, l'applicazione delle policy, il controllo dell'allineamento, l'ottimizzazione delle istruzioni e la postelaborazione RAG. È utile anche per gli agenti che si migliorano da soli, dove il feedback continuo aiuta a modellare risposte migliori nel tempo per creare cicli decisionali affidabili e autonomi.
Casi di utilizzo comune
-
Agenti della squadra rossa rispetto agli agenti della squadra blu
-
Agenti che generano, valutano e rivedono codice o piani
-
Garanzia della qualità, rilevamento delle allucinazioni e applicazione dello stile
Funzionalità
-
Supporta la generazione e la valutazione disaccoppiate utilizzando diversi modelli (ad esempio, Claude per la generazione e Mistral per la valutazione)
-
Il feedback è strutturato e utilizzato per richiedere risultati rivisti
-
Supporta più iterazioni o soglie di convergenza