Configurazione delle funzioni di ricompensa per i modelli Amazon Nova - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione delle funzioni di ricompensa per i modelli Amazon Nova

Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate o modelli di base ospitati da Amazon Bedrock come giudici. Sono disponibili modelli guidati per semplificare la creazione di funzioni di ricompensa per attività comuni come seguire le istruzioni e convalidare il formato. Scegliete l'approccio più adatto ai requisiti delle vostre attività.

Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)

RLVR ottimizza i modelli per attività oggettive come la generazione di codice o il ragionamento matematico utilizzando classificatori o modelli verificabili basati su regole. ready-to-use

Sono disponibili due opzioni per RLVR (codice personalizzato):

La console Amazon Bedrock fornisce modelli di esempio per le funzioni Grader Lambda:

  • Ragionamento matematico con verifica della verità fondamentale

  • Convalida del formato e controllo dei vincoli

  • Modello Lambda di livellatrice generico con codice standard

Segui le istruzioni nel modello fornito nella pagina Crea lavoro RFT nella console Amazon Bedrock.

Crea funzioni di ricompensa personalizzate utilizzando il tuo Lambda ARN per logiche complesse, calcoli esterni in più fasi o APIs combinando più criteri di valutazione.

Nota

Se utilizzi la tua funzione Lambda, tieni presente quanto segue:

  • Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.

  • Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare i modelli come descritto in. Accesso e sicurezza per i modelli Amazon Nova

Apprendimento per rinforzo tramite AI Feedback (RLAIF)

RLAIF ottimizza i modelli per attività soggettive come seguire le istruzioni o interagire con i chatbot utilizzando giudici basati sull'intelligenza artificiale con modelli. ready-to-use

Per RLAIF (Model as Judge):

  • Seleziona un modello base ospitato su Amazon Bedrock come giudice

  • Configura le istruzioni per la valutazione

  • Definisci i criteri di valutazione e le linee guida per il punteggio

Modelli di LLM-as-Judge prompt disponibili nella console Amazon Bedrock:

  • Seguono le istruzioni (formazione modello Judge)

  • Riepilogo (dialoghi a più turni)

  • Valutazione del ragionamento (CoT per domini specializzati)

  • Fedeltà RAG (domande e risposte basate sul contesto)

Nota

L'opzione Model as Judge della console converte automaticamente la configurazione in una funzione Lambda durante l'allenamento.

Dettagli sull'implementazione della funzione Lambda

Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Linee guida di progettazione

  • Classizza le risposte: assegna alla risposta migliore un punteggio chiaramente più alto

  • Utilizza controlli coerenti: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole

  • Mantieni una scalabilità stabile: mantieni i punteggi normalizzati e non sfruttabili