Flusso di lavoro per valutatori e cicli Reflect-Refine

Questo flusso di lavoro fornisce un ciclo di feedback in cui un LLM genera un risultato e un altro valuta o critica il risultato. Ciò promuove l'autoriflessione, l'ottimizzazione e i miglioramenti iterativi.

Il flusso di lavoro del valutatore è ideale per scenari in cui la qualità, la precisione e l'allineamento dell'output sono importanti e in cui la generazione a passaggio singolo è inaffidabile o insufficiente. Questo flusso di lavoro eccelle quando gli agenti devono autocriticare, iterare e perfezionare i propri risultati, per soddisfare uno standard di correttezza più elevato o per esplorare alternative migliori basate sul feedback.

Questo flusso di lavoro è particolarmente efficace quando:

L'output include metriche di qualità soggettive (ad esempio stile, tono e leggibilità) o criteri oggettivi (ad esempio, correttezza, sicurezza e prestazioni).
L'agente deve ragionare sulla base di compromessi, valutare i vincoli o ottimizzare per raggiungere un obiettivo.
Sono necessarie ridondanza e garanzia di qualità integrate, specialmente in domini regolamentati, rivolti ai clienti o creativi.
Human-in-the-loop la revisione è costosa o non disponibile e si desidera una convalida autonoma.

Questo flusso di lavoro viene utilizzato per la generazione di contenuti, la sintesi e la revisione del codice, l'applicazione delle policy, il controllo dell'allineamento, l'ottimizzazione delle istruzioni e la postelaborazione RAG. È utile anche per gli agenti che si migliorano da soli, dove il feedback continuo aiuta a modellare risposte migliori nel tempo per creare cicli decisionali affidabili e autonomi.

Casi di utilizzo comune

Agenti della squadra rossa rispetto agli agenti della squadra blu
Agenti che generano, valutano e rivedono codice o piani
Garanzia della qualità, rilevamento delle allucinazioni e applicazione dello stile

Funzionalità

Supporta la generazione e la valutazione disaccoppiate utilizzando diversi modelli (ad esempio, Claude per la generazione e Mistral per la valutazione)
Il feedback è strutturato e utilizzato per richiedere risultati rivisti
Supporta più iterazioni o soglie di convergenza

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Flusso di lavoro per l'orchestrazione

Conclusioni