Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione delle funzioni di ricompensa per i modelli a peso aperto
Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate. Scegliete l'approccio più adatto ai requisiti della vostra attività.
Funzioni Lambda personalizzate per la valutazione dei premi
Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate. All'interno della funzione Lambda, hai flessibilità nel modo in cui implementi la logica di valutazione:
-
Attività oggettive: per attività oggettive come la generazione di codice o il ragionamento matematico, utilizza classificatori verificabili basati su regole che controllano la correttezza rispetto a standard o casi di test noti.
-
Attività soggettive: per attività soggettive come seguire istruzioni o interagire con i chatbot, chiama i modelli di base di Amazon Bedrock come giudici all'interno della tua funzione Lambda per valutare la qualità della risposta in base ai tuoi criteri.
La tua funzione Lambda può implementare logiche complesse, integrare elementi esterni APIs, eseguire calcoli in più fasi o combinare più criteri di valutazione a seconda dei requisiti dell'attività.
Nota
Quando si utilizzano funzioni Lambda personalizzate:
-
Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.
-
Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare la funzione Lambda come descritto in. Autorizzazioni Lambda per le funzioni di ricompensa
Dettagli sull'implementazione della funzione Lambda
Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.
Linee guida di progettazione
Classizza le risposte: assegna alla risposta migliore un punteggio chiaramente più alto
Utilizza controlli coerenti: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole
Mantieni una scalabilità stabile: mantieni i punteggi normalizzati e non sfruttabili