Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Impostazione delle funzioni di ricompensa
Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Scegliete l'approccio più adatto ai requisiti della vostra attività.
Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)
RLVR consente di ottimizzare i modelli per attività oggettive come la generazione di codice o il ragionamento matematico. È possibile definire le funzioni di ricompensa utilizzando classificatori verificabili basati su regole o utilizzare ready-to-use modelli per casi d'uso comuni come controlli di formato, riepilogo e somiglianza del testo.
Sono disponibili due opzioni per RLVR (codice personalizzato):
-
Usa modelli forniti dalla console: la console Amazon Bedrock fornisce modelli di esempio per le funzioni Grader Lambda:
-
Ragionamento matematico con verifica della verità fondamentale
-
Convalida del formato e controllo dei vincoli
-
Modello Lambda generico di livellatrice con codice standard per la funzione grader Lambda
Prima di configurare la funzione Lambda, segui le istruzioni nel modello fornito nella pagina Crea lavoro RFT nella console Amazon
Bedrock. -
-
Porta la tua funzione Lambda: crea funzioni di ricompensa personalizzate eseguite tramite funzioni Lambda utilizzando il tuo Lambda ARN. Puoi combinare più alunni per produrre un unico punteggio.
Apprendimento per rinforzo tramite AI Feedback (RLAIF)
RLAIF consente l'ottimizzazione per attività soggettive come seguire le istruzioni o interagire con i chatbot. Puoi utilizzare giudici basati sull'intelligenza artificiale con ready-to-use modelli per casi d'uso comuni per valutare la qualità della risposta in base a criteri definiti dall'utente.
Per RLAIF (Model as Judge):
-
Seleziona un modello base ospitato su Amazon Bedrock come giudice
-
Configura le istruzioni per la valutazione
-
Definisci i criteri di valutazione e le linee guida per il punteggio
Puoi utilizzare i modelli di LLM-as-Judge prompt forniti nella console Amazon Bedrock:
-
Istruzioni seguenti (formazione sul modello Judge)
-
Riepilogo (dialoghi a più turni)
-
Valutazione del ragionamento (CoT per domini specializzati)
-
Fedeltà RAG (domande e risposte basate sul contesto)
Nota
-
Quando utilizzi l'opzione Model as Judge della console, Amazon Bedrock converte automaticamente la configurazione in una funzione Lambda che viene eseguita durante l'allenamento.
-
Se utilizzi la tua funzione Lambda, il ruolo di esecuzione Lambda necessita delle autorizzazioni necessarie per richiamare modelli con ID modello o profilo di inferenza come descritto in. Autorizzazioni della funzione Grader Lambda per RLAIF