Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione delle funzioni di ricompensa per i modelli Amazon Nova
Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate o modelli di base ospitati da Amazon Bedrock come giudici. Sono disponibili modelli guidati per semplificare la creazione di funzioni di ricompensa per attività comuni come seguire le istruzioni e convalidare il formato. Scegliete l'approccio più adatto ai requisiti delle vostre attività.
Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)
RLVR ottimizza i modelli per attività oggettive come la generazione di codice o il ragionamento matematico utilizzando classificatori o modelli verificabili basati su regole. ready-to-use
Sono disponibili due opzioni per RLVR (codice personalizzato):
La console Amazon Bedrock fornisce modelli di esempio per le funzioni Grader Lambda:
-
Ragionamento matematico con verifica della verità fondamentale
-
Convalida del formato e controllo dei vincoli
-
Modello Lambda di livellatrice generico con codice standard
Segui le istruzioni nel modello fornito nella pagina Crea lavoro RFT nella console Amazon Bedrock
Crea funzioni di ricompensa personalizzate utilizzando il tuo Lambda ARN per logiche complesse, calcoli esterni in più fasi o APIs combinando più criteri di valutazione.
Nota
Se utilizzi la tua funzione Lambda, tieni presente quanto segue:
-
Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.
-
Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare i modelli come descritto in. Accesso e sicurezza per i modelli Amazon Nova
Apprendimento per rinforzo tramite AI Feedback (RLAIF)
RLAIF ottimizza i modelli per attività soggettive come seguire le istruzioni o interagire con i chatbot utilizzando giudici basati sull'intelligenza artificiale con modelli. ready-to-use
Per RLAIF (Model as Judge):
-
Seleziona un modello base ospitato su Amazon Bedrock come giudice
-
Configura le istruzioni per la valutazione
-
Definisci i criteri di valutazione e le linee guida per il punteggio
Modelli di LLM-as-Judge prompt disponibili nella console Amazon Bedrock:
-
Seguono le istruzioni (formazione modello Judge)
-
Riepilogo (dialoghi a più turni)
-
Valutazione del ragionamento (CoT per domini specializzati)
-
Fedeltà RAG (domande e risposte basate sul contesto)
Nota
L'opzione Model as Judge della console converte automaticamente la configurazione in una funzione Lambda durante l'allenamento.
Dettagli sull'implementazione della funzione Lambda
Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.
Linee guida di progettazione
Classizza le risposte: assegna alla risposta migliore un punteggio chiaramente più alto
Utilizza controlli coerenti: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole
Mantieni una scalabilità stabile: mantieni i punteggi normalizzati e non sfruttabili