Job di addestramento SageMaker AI
La personalizzazione dei modelli Amazon Nova con Amazon SageMaker Training Jobs segue un flusso di lavoro strutturato progettato per semplificare il complesso processo di fine-tuning di modelli linguistici di grandi dimensioni. Questo flusso di lavoro completo include l’addestramento, la valutazione e l’implementazione dei modelli per l’inferenza. Per ulteriori informazioni, consulta Customizing Amazon Nova models nella Guida per gli sviluppatori di Amazon SageMaker AI.
Con Amazon SageMaker AI, puoi eseguire il fine-tuning dei modelli di fondazione preaddestrati esistenti, come Amazon Nova, senza addestrare i modelli da zero. Le seguenti sezioni descrivono in dettaglio le opzioni di fine-tuning in SageMaker AI quando si lavora con i modelli di fondazione di Amazon Nova.
Argomenti
Fine-tuning completo
Il fine-tuning completo modifica tutti i parametri del modello di fondazione per ottimizzarne le prestazioni per attività o domini specifici. Questo approccio globale aggiorna l’intera architettura del modello, rendendo possibili adattamenti più profondi rispetto ai metodi basati su adattatori. Per ulteriori informazioni, consulta Fine-tune foundation models.
Come funziona il fine-tuning completo
Durante il fine-tuning completo, il modello apprende aggiornando tutti i suoi parametri usando i dati di addestramento. Il processo di fine-tuning completo:
-
Permette al modello di sviluppare conoscenze specialistiche per il dominio.
-
Consente modifiche significative alle rappresentazioni sottostanti del modello.
-
Richiede maggiori risorse computazionali rispetto ai metodi basati su adattatori, ma può garantire prestazioni migliori per attività specifiche.
Quando scegliere il fine-tuning completo
Consigliamo di usare il fine-tuning completo negli scenari riportati di seguito:
-
Quando il fine-tuning di LoRA PEFT non raggiunge i livelli di prestazione desiderati.
-
Per domini specialistici che richiedono competenze approfondite (ad esempio in ambito medico, legale o tecnico).
-
Quando sono disponibili set di dati di grandi dimensioni e di alta qualità per il caso d’uso.
-
Quando i requisiti di precisione prevalgono sulle considerazioni relative ai costi computazionali.
-
Per applicazioni che richiedono deviazioni significative dal comportamento del modello di base.
Fine-tuning di adattatori LoRA
Il metodo più efficace ed economico per migliorare le prestazioni del modello di base è eseguire il fine-tuning efficiente dei parametri degli adattatori low-rank (PEFT LoRA). Il principio alla base del PEFT LoRA è che solo un numero limitato di pesi aggiuntivi richiede l’aggiornamento per adattarsi a nuove attività o domini.
Il PEFT LoRA esegue in modo efficiente il fine-tuning dei modelli di fondazione introducendo matrici di pesi addestrabili low-rank in livelli specifici del modello, riducendo il numero di parametri addestrabili e mantenendo la qualità del modello. Un adattatore PEFT LoRA amplia il modello di fondazione incorporando livelli di adattatori leggeri che modificano i pesi del modello durante l’inferenza, mantenendo intatti i parametri del modello originale. Questo approccio è anche considerato una delle tecniche di fine-tuning più convenienti. Per ulteriori informazioni, consulta Fine-tune models with adapter inference components.
Quando scegliere il PEFT LoRA
È consigliabile utilizzare il PEFT LoRa nei seguenti scenari:
-
In genere è preferibile iniziare con il PEFT LoRA piuttosto che con altri metodi di fine-tuning, poiché si tratta di una procedura di addestramento veloce.
-
Il PEFT LoRA è efficace nei casi in cui le prestazioni del modello base sono già soddisfacenti. In questo caso, l’obiettivo del PEFT LoRA è quello di migliorare le sue capacità in molteplici attività correlate, come la sintesi testuale o la traduzione linguistica. Le proprietà di regolarizzazione di PEFT LoRA contribuiscono inoltre a prevenire l’overfitting e riducono il rischio che il modello “dimentichi” il dominio di origine. Ciò garantisce che il modello rimanga versatile e adattabile a varie applicazioni.
-
È possibile usare il PEFT LoRA per scenari di fine-tuning delle istruzioni con set di dati relativamente piccoli. Il PEFT LoRA offre prestazioni migliori con set di dati di dimensioni ridotte e specifici per attività rispetto a set di dati più ampi e più grandi.
-
Per set di dati etichettati di grandi dimensioni che superano i limiti di personalizzazione di Amazon Bedrock, puoi usare il PEFT LoRA su SageMaker AI per generare risultati migliori.
-
Con risultati promettenti già ottenuti grazie al fine-tuning di Amazon Bedrock, PEFT LoRA in SageMaker AI contribuisce a ottimizzare ulteriormente gli iperparametri del modello.
Ottimizzazione diretta delle preferenze
L’ottimizzazione diretta delle preferenze (DPO, Direct Preference Optimization) è un metodo di fine-tuning efficiente per i modelli di fondazione che utilizza dati di confronto accoppiati per allineare gli output del modello alle preferenze umane. Questo approccio permette l’ottimizzazione diretta del comportamento del modello sulla base di feedback umano in merito alle risposte considerate più appropriate.
Perché DPO è importante
I modelli di fondazione addestrati con dati su larga scala spesso generano risultati che potrebbero essere corretti dal punto di vista fattuale, ma che non riescono ad allinearsi con le esigenze specifiche degli utenti, i valori dell’organizzazione o i requisiti di sicurezza. DPO colma queste lacune permettendoti di:
-
Eseguire il fine-tuning dei modelli in base ai pattern di comportamento desiderati.
-
Ridurre gli output indesiderati o le risposte dannose.
-
Allineare le risposte del modello alle linee guida in materia di voce e comunicazione del marchio.
-
Migliorare la qualità delle risposte sulla base del feedback degli esperti del settore.
Funzionamento di DPO
DPO usa esempi accoppiati in cui valutatori umani indicano quale delle due possibili risposte è da preferire. Il modello impara a massimizzare la probabilità di generare risposte da preferire, riducendo al minimo quelle indesiderate. Puoi implementare DPO utilizzando una delle seguenti tecniche:
-
DPO a dimensionalità completa: aggiorna tutti i parametri del modello per ottimizzare le risposte preferite.
-
DPO basato su LoRa: usa adattatori leggeri per apprendere gli allineamenti delle preferenze, richiedendo meno risorse computazionali.
Quando scegliere DPO
È consigliabile utilizzare DPO nei seguenti scenari:
-
Ottimizzazione per output soggettivi che richiedono l’allineamento a specifiche preferenze umane.
-
Regolazione del tono, dello stile o delle caratteristiche del contenuto del modello in base ai modelli di risposta desiderati.
-
Miglioramenti mirati apportati a un modello esistente sulla base del feedback degli utenti e dell’analisi degli errori.
-
Mantenimento di un livello costante di qualità dell’output in diversi casi d’uso.
-
Implementazione di guardrail di sicurezza attraverso modelli di risposta preferiti.
-
Addestramento con apprendimento per rinforzo senza ricompense.
-
Utilizzo di soli dati di preferenza anziché dati classificati o etichettati.
-
Miglioramento del modello in attività di allineamento articolate, come disponibilità, innocuità e onestà.
DPO è efficace per perfezionare in modo iterativo il comportamento del modello attraverso set di dati sulle preferenze accuratamente selezionati che mostrano i risultati desiderati rispetto a quelli indesiderati. La flessibilità del metodo nel supportare approcci completi e basati su LoRA permette di scegliere l’implementazione più adatta in base alle risorse computazionali disponibili e ai requisiti specifici.
Distillazione
La distillazione di modelli è un metodo che trasferisce le conoscenze da modelli avanzati di grandi dimensioni a modelli più piccoli ed efficienti. Con i modelli Amazon Nova, un modello “insegnante” di dimensioni maggiori (come Amazon Nova Pro o Amazon Nova Premier) trasferisce le sue funzionalità a un modello “studente” di dimensioni minori (come Amazon Nova Lite o Amazon Nova Micro). Questo crea un modello personalizzato che mantiene prestazioni elevate utilizzando meno risorse.
Per informazioni su come completare questa operazione usando SageMaker AI Training Jobs, consulta Amazon Nova distillation.