Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizza un modello con la messa a punto del rinforzo in Amazon Bedrock
Il reinforcement fine-tuning è una tecnica di personalizzazione del modello in Amazon Bedrock che migliora le prestazioni del modello di base insegnando ai modelli ciò che costituisce una risposta «buona» attraverso segnali di feedback chiamati premi. A differenza dei metodi di perfezionamento tradizionali che dipendono da set di dati etichettati, il reinforcement fine-tuning utilizza un approccio basato sul feedback che ottimizza iterativamente il modello per massimizzare queste ricompense.
Applicazioni e scenari per la messa a punto dei rinforzi
Utilizzate la messa a punto del rinforzo quando potete definire criteri di successo chiari e misurabili per valutare la qualità della risposta. La regolazione precisa del rinforzo eccelle nei settori in cui la qualità dell'output può essere misurata in modo obiettivo, specialmente quando esistono più risposte valide o quando è difficile definire in anticipo risposte ottimali. È ideale per:
Risoluzione di problemi matematici e generazione di codice (utilizzando classificatori basati su regole per una valutazione obiettiva)
Ragionamento scientifico e analisi strutturata dei dati
Attività soggettive come seguire le istruzioni, moderare i contenuti e scrivere in modo creativo (utilizzando giudici basati sull'intelligenza artificiale)
Attività che richiedono step-by-step ragionamento o risoluzione di problemi a più turni
Scenari con più soluzioni valide in cui alcune sono chiaramente migliori di altre
Applicazioni che bilanciano più obiettivi (precisione, efficienza, stile)
Applicazioni che richiedono miglioramento iterativo, personalizzazione o rispetto di regole aziendali complesse
Scenari in cui il successo può essere verificato a livello di codice tramite risultati di esecuzione o metriche prestazionali
Casi in cui la raccolta di esempi etichettati di alta qualità è costosa o poco pratica
Vantaggi della messa a punto dei rinforzi
-
Prestazioni migliorate del modello: la regolazione fine del rinforzo migliora la precisione del modello fino al 66% in media rispetto ai modelli base. Ciò consente l'ottimizzazione del prezzo e delle prestazioni perfezionando varianti di modello più piccole, veloci ed efficienti.
-
Facilità d'uso: Amazon Bedrock automatizza la complessità della messa a punto dei rinforzi, rendendola accessibile agli sviluppatori che creano applicazioni di intelligenza artificiale. Puoi ottimizzare i modelli utilizzando i set di dati caricati o i log di invocazione delle API esistenti. Puoi definire funzioni di ricompensa che valutano gli output del modello con codice personalizzato utilizzando Lambda model-as-a-judge o grader, con modelli integrati che facilitano la configurazione rapida.
-
Sicurezza e conformità: i dati proprietari non escono mai dall'ambiente sicuro e regolamentato AWS di cui dispone durante il processo di personalizzazione.
Modelli supportati per la messa a punto dei rinforzi
La tabella seguente mostra i modelli di fondazione che è possibile personalizzare con la regolazione fine del rinforzo:
| Provider | Modello | ID modello | Nome Regione | Regione |
|---|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k |
Stati Uniti orientali (Virginia settentrionale) |
us-east-1 |
| OpenAI | GPT-OSS-20b | apri i.gpt-oss-20b | Stati Uniti occidentali (Oregon) | us-west-2 |
| Qwen | Qwen3 32 GB | qwen.qwen3-32b | Stati Uniti occidentali (Oregon) | us-west-2 |
Come funziona la messa a punto dei rinforzi
Amazon Bedrock automatizza completamente il flusso di lavoro di ottimizzazione dei rinforzi. Il modello riceve istruzioni dal set di dati di addestramento e genera diverse risposte per richiesta. Queste risposte vengono quindi valutate da una funzione di ricompensa. Amazon Bedrock utilizza le coppie di risposta rapida con punteggi per addestrare il modello attraverso l'apprendimento basato su policy utilizzando Group Relative Policy Optimization (GRPO). Il ciclo di formazione continua fino alla fine dei dati di addestramento o fino a quando non interrompi il lavoro in un punto di controllo prescelto, producendo un modello ottimizzato per la metrica che ti interessa.
Migliori pratiche di ottimizzazione dei rinforzi
Inizia in piccolo: inizia con 100-200 esempi, convalida la correttezza della funzione di ricompensa e scala gradualmente in base ai risultati
Valutazione preliminare alla messa a punto: verifica le prestazioni del modello di base prima della messa a punto del rinforzo. Se i premi sono costantemente pari allo 0%, utilizza innanzitutto la messa a punto supervisionata per stabilire le funzionalità di base. Se le ricompense sono superiori al 95 percento, la messa a punto dei rinforzi potrebbe non essere necessaria
Monitora la formazione: monitora i punteggi medi e la distribuzione dei premi. Fai attenzione all'overfitting (i premi di formazione aumentano mentre i premi di convalida diminuiscono). Fate attenzione a modelli preoccupanti, ad esempio che i premi si stabilizzano al di sotto di 0,15, l'aumento della varianza delle ricompense nel tempo e il calo delle prestazioni di convalida
Ottimizzazione delle funzioni di ricompensa: esegui in pochi secondi (non minuti), riduci al minimo le chiamate API esterne, utilizza algoritmi efficienti, implementa la corretta gestione degli errori e sfrutta la scalabilità parallela di Lambda
Strategia di iterazione: se i premi non migliorano, modifica la progettazione della funzione di ricompensa, aumenta la diversità dei set di dati, aggiungi altri esempi rappresentativi e verifica che i segnali di ricompensa siano chiari e coerenti