Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Prepara i dati di allenamento e le funzioni di ricompensa per la messa a punto dei rinforzi
Per creare un lavoro di ottimizzazione dei rinforzi, sono necessari dati di addestramento e funzioni di ricompensa che valutino la qualità della risposta. A differenza della regolazione fine tradizionale che richiede coppie di ingresso/uscita, RFT utilizza istruzioni e segnali di ricompensa per guidare l'apprendimento del modello.
Puoi utilizzare i log di chiamata dell'API Amazon Bedrock esistenti come dati di addestramento o caricare nuovi set di dati. Le funzioni di ricompensa definiscono i fattori che determinano una buona risposta e possono utilizzare la verifica basata su regole (RLVR) o il giudizio basato sull'intelligenza artificiale (RLAIF).
Importante
Puoi fornire un massimo di 20.000 richieste ad Amazon Bedrock per la messa a punto del rinforzo del modello.