Configurazione delle funzioni di ricompensa per i modelli a peso aperto - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione delle funzioni di ricompensa per i modelli a peso aperto

Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate. Scegliete l'approccio più adatto ai requisiti della vostra attività.

Funzioni Lambda personalizzate per la valutazione dei premi

Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate. All'interno della funzione Lambda, hai flessibilità nel modo in cui implementi la logica di valutazione:

  • Attività oggettive: per attività oggettive come la generazione di codice o il ragionamento matematico, utilizza classificatori verificabili basati su regole che controllano la correttezza rispetto a standard o casi di test noti.

  • Attività soggettive: per attività soggettive come seguire istruzioni o interagire con i chatbot, chiama i modelli di base di Amazon Bedrock come giudici all'interno della tua funzione Lambda per valutare la qualità della risposta in base ai tuoi criteri.

La tua funzione Lambda può implementare logiche complesse, integrare elementi esterni APIs, eseguire calcoli in più fasi o combinare più criteri di valutazione a seconda dei requisiti dell'attività.

Nota

Quando si utilizzano funzioni Lambda personalizzate:

  • Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.

  • Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare la funzione Lambda come descritto in. Autorizzazioni Lambda per le funzioni di ricompensa

Dettagli sull'implementazione della funzione Lambda

Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Linee guida di progettazione

  • Classizza le risposte: assegna alla risposta migliore un punteggio chiaramente più alto

  • Utilizza controlli coerenti: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole

  • Mantieni una scalabilità stabile: mantieni i punteggi normalizzati e non sfruttabili