Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)Apprendimento per rinforzo tramite AI Feedback (RLAIF)Dettagli sull'implementazione della funzione Lambda

Configurazione delle funzioni di ricompensa per i modelli Amazon Nova

Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate o modelli di base ospitati da Amazon Bedrock come giudici. Sono disponibili modelli guidati per semplificare la creazione di funzioni di ricompensa per attività comuni come seguire le istruzioni e convalidare il formato. Scegliete l'approccio più adatto ai requisiti delle vostre attività.

Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)

RLVR ottimizza i modelli per attività oggettive come la generazione di codice o il ragionamento matematico utilizzando classificatori o modelli verificabili basati su regole. ready-to-use

Sono disponibili due opzioni per RLVR (codice personalizzato):

La console Amazon Bedrock fornisce modelli di esempio per le funzioni Grader Lambda:

Ragionamento matematico con verifica della verità fondamentale
Convalida del formato e controllo dei vincoli
Modello Lambda di livellatrice generico con codice standard

Segui le istruzioni nel modello fornito nella pagina Crea lavoro RFT nella console Amazon Bedrock.

Crea funzioni di ricompensa personalizzate utilizzando il tuo Lambda ARN per logiche complesse, calcoli esterni in più fasi o APIs combinando più criteri di valutazione.

Nota

Se utilizzi la tua funzione Lambda, tieni presente quanto segue:

Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.
Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare i modelli come descritto in. Accesso e sicurezza per i modelli Amazon Nova

Apprendimento per rinforzo tramite AI Feedback (RLAIF)

RLAIF ottimizza i modelli per attività soggettive come seguire le istruzioni o interagire con i chatbot utilizzando giudici basati sull'intelligenza artificiale con modelli. ready-to-use

Per RLAIF (Model as Judge):

Seleziona un modello base ospitato su Amazon Bedrock come giudice
Configura le istruzioni per la valutazione
Definisci i criteri di valutazione e le linee guida per il punteggio

Modelli di LLM-as-Judge prompt disponibili nella console Amazon Bedrock:

Seguono le istruzioni (formazione modello Judge)
Riepilogo (dialoghi a più turni)
Valutazione del ragionamento (CoT per domini specializzati)
Fedeltà RAG (domande e risposte basate sul contesto)

Nota

L'opzione Model as Judge della console converte automaticamente la configurazione in una funzione Lambda durante l'allenamento.

Dettagli sull'implementazione della funzione Lambda

Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.

Linee guida di progettazione

Classizza le risposte: assegna alla risposta migliore un punteggio chiaramente più alto
Utilizza controlli coerenti: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole
Mantieni una scalabilità stabile: mantieni i punteggi normalizzati e non sfruttabili

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Prepara i dati

Crea lavori di messa a punto