Personalizza un modello con la messa a punto del rinforzo in Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Personalizza un modello con la messa a punto del rinforzo in Amazon Bedrock

La messa a punto del rinforzo è una tecnica di personalizzazione del modello in Amazon Bedrock. Migliora le prestazioni del modello base insegnando ai modelli ciò che costituisce una risposta «buona» attraverso segnali di feedback chiamati premi. Mentre i metodi di ottimizzazione tradizionali dipendono da set di dati etichettati, la messa a punto del rinforzo utilizza un approccio basato sul feedback. Ciò consente ai modelli di migliorare in modo iterativo sulla base di segnali di ricompensa. Invece di imparare da esempi fissi, utilizza funzioni di ricompensa per valutare e giudicare quali risposte sono considerate buone per particolari casi d'uso aziendali.

La messa a punto dei rinforzi insegna ai modelli a capire cosa determina una risposta di qualità. Non sono necessarie enormi quantità di dati di formazione preetichettati. Ciò rende la personalizzazione avanzata del modello in Amazon Bedrock più accessibile ed economica.

La funzionalità supporta due approcci per fornire flessibilità per l'ottimizzazione dei modelli:

  • Reinforcement Learning with Verifiable Rewards (RLVR): utilizza classificatori basati su regole per attività oggettive come la generazione di codice o il ragionamento matematico

  • Reinforcement Learning from AI Feedback (RLAIF): utilizza giudici basati sull'intelligenza artificiale per attività soggettive come seguire le istruzioni o moderare i contenuti

Per ulteriori informazioni, consulta Impostazione delle funzioni di ricompensa.

La messa a punto dei rinforzi può offrire i seguenti vantaggi:

  • Prestazioni migliorate del modello: la regolazione fine dei rinforzi migliora la precisione del modello rispetto ai modelli base. Ciò consente l'ottimizzazione del prezzo e delle prestazioni addestrando varianti di modello più piccole, veloci ed efficienti.

  • Dati di formazione flessibili: Amazon Bedrock automatizza gran parte della complessità. Ciò rende la messa a punto del rinforzo accessibile agli sviluppatori che creano applicazioni di intelligenza artificiale. Puoi addestrare facilmente i modelli utilizzando i log di invocazione dei modelli Amazon Bedrock esistenti come dati di addestramento o caricare i tuoi set di dati.

  • Sicurezza e conformità: i tuoi dati proprietari non escono mai dall'ambiente sicuro e governato AWS di cui dispone durante il processo di personalizzazione.

Modelli supportati per la messa a punto dei rinforzi

La tabella seguente mostra i modelli di fondazione che è possibile personalizzare con la regolazione fine del rinforzo:

Modelli supportati per la messa a punto delle armature
Provider Modello ID modello Supporto per modelli a regione singola
Amazon Nova 2 Lite amazon.nova-2-lite-v1:0:256k us-east-1

Come funziona la messa a punto dei rinforzi

Amazon Bedrock automatizza completamente il flusso di lavoro RFT attraverso un processo in tre fasi:

Fase 1: generazione di risposte

Il modello dell'attore (il modello da personalizzare) riceve istruzioni dal set di dati di addestramento e genera risposte. Per impostazione predefinita, genera 4 risposte per prompt. Questa fase supporta interazioni sia a turno singolo che a turno multiplo, consentendo una copertura completa di diversi casi d'uso.

Fase 2: calcolo della ricompensa

Le coppie di pronta risposta generate dal modello di attore vengono valutate in base ai modelli di ottimizzazione selezionati:

  • RLVR - Esegui tramite Lambda per calcolare punteggi obiettivi

  • RLAIF - Valuta le risposte in base a criteri e principi configurati (la console le converte automaticamente in funzioni Lambda)

Fase 3: formazione di modelli di attori

Amazon Bedrock utilizza le coppie di risposta rapida con i punteggi per addestrare il modello dell'attore attraverso l'apprendimento basato su policy utilizzando Group Relative Policy Optimization (GRPO). Il ciclo di formazione continua in modo iterativo finché il modello non raggiunge le metriche prestazionali desiderate o soddisfa i criteri di interruzione predefiniti.

Amazon Bedrock gestisce automaticamente il calcolo parallelo delle ricompense, l'ottimizzazione della pipeline di formazione e implementa misure di protezione contro le sfide comuni del reinforcement learning come l'hacking dei premi e il collasso delle politiche.