Selezione degli iperparametri
Consigliamo di iniziare con gli iperparametri predefiniti, che si basano sulla nostra valutazione di attività con complessità e dimensioni dei dati diverse. Tuttavia, durante la valutazione delle prestazioni, potresti dover regolare e ottimizzare alcuni iperparametri in base al caso d’uso.
Argomenti
Guida per la regolazione degli iperparametri
Le seguenti linee guida generali possono essere utili per stabilire come regolare gli iperparametri durante il fine-tuning di un modello.
Modificare le epoch in base alla dimensione del campione: il numero di epoch predefinito è 2, che funziona nella maggior parte dei casi. In generale, set di dati di dimensioni maggiori richiedono meno epoch per la convergenza, mentre set di dati di dimensioni minori prevedono un’epoch di addestramento più grande. Consigliamo di modificare le epoch in base alla dimensione del set di dati.
Struttura dei prompt: l’ottimizzazione della strategia di prompting può migliorare le prestazioni di un modello ottimizzato con fine-tuning. Vale la pena dedicare tempo all’ottimizzazione dei modelli di prompt dei modelli esistenti prima di utilizzarli per il fine-tuning. Consigliamo di seguire le best practice di prompting adottate da Amazon Nova per ottenere i migliori risultati in termini di prestazioni.
Aumento delle epoch effettive: il servizio di personalizzazione di Amazon Bedrock limita le epoch a 5, un’impostazione che potrebbe ostacolare la formazione insufficiente su set di dati più piccoli. Pertanto, per campioni più piccoli (<1.000), consigliamo di duplicare i dati per aumentare le “epoch effettive”. Ad esempio, se il set di dati aumenta fino a 2 volte, addestrare 5 epoch significa effettivamente addestrare 10 epoch sui dati originali. Per campioni più grandi (fino a 5.000) consigliamo 2 epoch, mentre per campioni di dimensioni superiori a 5.000 consigliamo di utilizzare 1 epoch per una convergenza più rapida.
Evitare un numero di riscaldamento elevato per campioni piccoli: il tasso di apprendimento aumenta gradualmente fino al valore impostato durante il riscaldamento. Pertanto, è consigliabile evitare di utilizzare un numero di riscaldamento elevato per un campione di addestramento di piccole dimensioni, poiché il tasso di apprendimento potrebbe non raggiungere mai il valore impostato durante il processo di addestramento. Consigliamo di impostare le fasi di riscaldamento dividendo le dimensioni del set di dati per 640 per Amazon Nova Micro, 160 per Amazon Nova Lite e 320 per Amazon Nova Pro e arrotondando il numero.
Tasso di apprendimento maggiore per modelli più piccoli: Amazon Nova Micro può trarre vantaggio da un tasso di apprendimento più elevato grazie alla dimensione effettiva della batch utilizzata nel backend.
Qualità prima della quantità: la qualità dei dati di addestramento è più importante della quantità. Inizia con un set di dati piccolo e di qualità elevata per il fine-tuning e la valutazione delle prestazioni iniziali, quindi ripeti l’operazione ed espandilo in base ai risultati.
Perfezionamento dei dati: in alcuni casi d’uso, potrebbe essere utile ripulire e migliorare i dati di addestramento utilizzando i modelli Amazon Nova. Questi dati perfezionati possono quindi essere utilizzati per eseguire il fine-tuning di modelli più piccoli in modo efficace.
Diversificazione e potenziamento: puoi migliorare le prestazioni del modello aumentando la variazione e la diversità del set di dati di personalizzazione. I dati di fine-tuning e quelli di valutazione devono essere coerenti con l’effettiva distribuzione del traffico che vedrà il modello.
Distillazione: Amazon Nova Lite e Amazon Nova Pro possono essere utilizzati per generare dati di addestramento per il fine-tuning dei modelli Amazon Nova Micro. Questo metodo può essere molto efficace se i modelli di dimensioni maggiori sono già altamente capaci di svolgere l’attività desiderata.
Quando distillare o eseguire il fine-tuning?
Consigliamo di utilizzare la distillazione quando:
Non disponi di dati etichettati e i modelli di dimensioni maggiori della famiglia (noti anche come modelli insegnante) sono altamente capaci di svolgere l’attività desiderata.
I modelli di dimensioni maggiori sono più adatti dei modelli più piccoli per lo svolgimento dell’attività desiderata, ma hai bisogno della latenza e del profilo dei costi dei modelli più piccoli con la precisione dei modelli di dimensioni maggiori.
Consigliamo di eseguire il fine-tuning personalizzato quando:
Non ottieni buone prestazioni, anche per un modello di dimensioni maggiori, ed è presente una lacuna di intelligenza nel modello.
Il tuo caso d’uso rientra in un dominio molto ristretto e non sufficientemente generale affinché sia conosciuto dal modello.