Pre-allenamento continuo e a metà allenamento - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pre-allenamento continuo e a metà allenamento

Nota

La documentazione dettagliata viene fornita una volta sottoscritta

Nova Forge CPT offre funzionalità avanzate oltre al CPT standard, incluso l'accesso a checkpoint intermedi e la miscelazione dei dati con il corpus di pre-formazione di Nova. Queste funzionalità consentono un adattamento più efficiente del dominio e una migliore conservazione delle funzionalità generali del modello.

Cosa sono i checkpoint intermedi e perché sono necessari?

I checkpoint intermedi sono istantanee del modello Amazon Nova salvate in diverse fasi del pre-addestramento, prima che il modello raggiunga lo stato finale pronto per la produzione. Durante lo sviluppo del modello, Amazon Nova viene sottoposto a diverse fasi di formazione: pre-formazione iniziale con tasso di apprendimento costante, riduzione del tasso di apprendimento, formazione con estensione del contesto e infine formazione sull'allineamento e sulla sicurezza che segue le istruzioni. Per il CPT, i checkpoint intermedi sono spesso preferibili al checkpoint Prod finale perché sono più plastici e ricettivi all'adattamento del dominio. Il checkpoint Prod è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che ottimizza il modello per l'uso conversazionale generale ma può renderlo resistente all'apprendimento di nuovi schemi specifici del dominio durante il CPT. Al contrario, i checkpoint contenenti solo testo parzialmente e completamente preaddestrato mantengono le caratteristiche di pre-addestramento del modello. Non sono stati fortemente orientati verso comportamenti specifici, il che li rende punti di partenza più efficienti per l'adattamento al dominio. Quando si esegue un CPT su larga scala (token >10B), partire da checkpoint intermedi in genere si ottiene una convergenza più rapida, una migliore stabilità della formazione e un'acquisizione più efficace delle conoscenze di dominio. Tuttavia, per il CPT su piccola scala (token <10B), o quando è necessario preservare le funzionalità di seguire le istruzioni, il checkpoint Prod può essere più appropriato in quanto consente l'adattamento del dominio mantenendo le capacità di conversazione del modello.

Per il CPT sono necessari più checkpoint intermedi perché offrono diversi livelli di plasticità del modello che influiscono sull'efficienza con cui il modello può assorbire nuove conoscenze di dominio. Il checkpoint Prod finale è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che lo ottimizza per l'uso conversazionale generale ma lo rende resistente all'apprendimento di nuovi schemi specifici del dominio. In altre parole, è stato rafforzato dopo l'allenamento. Al contrario, i checkpoint precedenti mantengono le caratteristiche di pre-allenamento del modello e non sono stati fortemente orientati verso comportamenti specifici, il che li rende più plastici e ricettivi all'adattamento del dominio.

Per ottenere la migliore efficienza della formazione, sono disponibili più punti di controllo intermedi.

Quali posti di blocco sono disponibili?

Nova 1.0

La famiglia Amazon Nova 1.0 è composta da tre modelli (Micro, Lite, Pro) e per ogni modello sono disponibili tre checkpoint.

  • PRE-TRAINED - [nova-<micro/lite/pro>/pretraining-text-partial]: Questo è il punto di controllo dopo la fase di apprendimento costante del pre-training di Amazon Nova, in cui il modello viene addestrato su trilioni di token di testo.

  • MID-TRAINED - [nova-<micro/lite/pro>/pretraining-text-full]: Questo è il checkpoint di solo testo al termine di tutte le fasi della formazione preliminare e intermedia di Amazon Nova con trilioni di token di testo. Usali se il modello in particolare non avrebbe dovuto visualizzare dati multimodali.

  • MID-TRAINED - [nova-<lite/pro>/pretraining-mm-full]: Questo è il checkpoint dopo l'elaborazione di tutte le fasi della formazione preliminare e intermedia di Amazon Nova, compresi i dati multimodali, con trilioni di token.

  • POST-TRAINED - [nova-<micro/lite/pro>/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi di pre-formazione e post-formazione.

Nova 2.0

Esistono tre checkpoint Amazon Nova Lite 2.0.

  • PRE-TRAINED - [nova-lite-2/pretraining-text-RD]: Questo è il checkpoint dopo il ritmo di apprendimento costante e le fasi di accelerazione della formazione preliminare di Amazon Nova, in cui il modello viene addestrato su trilioni di token.

  • MID-TRAINED - [nova-lite-2/pretraining-text-CE]: Questo checkpoint consente di introdurre volumi intermedi di dati non strutturati con un tasso di apprendimento più conservativo rispetto alla formazione preliminare, assorbendo le conoscenze specifiche del dominio ed evitando al contempo catastrofici dimenticamenti.

  • POST-TRAINED - [nova-lite-2/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi pertinenti e successive alla formazione.

La tabella seguente illustra le diverse condizioni prima e durante l'allenamento.

Tipo di dati

Esegui

Con Checkpoint

Dati di dominio grezzi non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)

Formazione preliminare continua

Pre-addestrato

Dati di dominio non strutturati non strutturati su larga scala (documenti, registri, articoli, codice, ecc.)

A metà allenamento

Pre-addestrato

Volumi più piccoli di dati grezzi non strutturati. Tracce di ragionamento strutturato/dati CoT

A metà allenamento

A metà allenamento

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Ottimizzazione completa

Metà allenato

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Regolazione precisa efficiente dei parametri

Post-addestramento

Quale checkpoint usare?

I checkpoint con solo testo parzialmente preaddestrato e solo testo completamente preaddestrato in genere convergono più rapidamente e richiedono meno passaggi di formazione per l'adattamento del dominio. Tuttavia, non sono in grado di adattare le istruzioni e dovrebbero sottoporsi a fasi successive all'addestramento per poter svolgere attività utili e seguire le istruzioni. Il punto di controllo GA potrebbe richiedere più passaggi per adattarsi, ma offre un punto di partenza più sicuro per esperimenti su piccola scala e manterrà alcune delle sue capacità post-addestramento anche dopo l'addestramento CPT.

In generale, con set di dati di addestramento di grandi dimensioni (più di 10 miliardi di token), iniziate da punti di controllo solo testuali parzialmente preaddestrati o solo testo completamente preaddestrato per un addestramento più efficiente e stabile, poiché la base di conoscenze del modello verrà modificata in modo sostanziale. Con set di dati di piccole dimensioni (<10 miliardi di token), utilizzate il checkpoint GA per preservare le capacità di seguire le istruzioni adattandovi al dominio.

Come utilizzare la miscelazione dei dati per i modelli 1.0 o 2.0?

Quando si esegue il CPT con dati di un nuovo dominio, è estremamente utile combinare i nuovi dati con alcuni dei dati utilizzati in precedenza nella fase di pre-addestramento del modello. La combinazione di dati vecchi con dati di nuovo dominio risolve due problemi:

  • Dimenticare il controllo: previene l'oblio catastrofico preservando le competenze e le conoscenze esistenti del modello. Senza la miscelazione dei dati, l'addestramento esclusivamente su dati di dominio ristretto fa sì che il modello sovrascriva le funzionalità generali. Ad esempio, un modello addestrato solo su documenti legali potrebbe perdere la capacità di codificare o fare calcoli matematici. La combinazione dei set di dati del dominio generale preserva queste competenze generali durante l'acquisizione del nuovo dominio.

  • Stabilità di ottimizzazione: mantiene la stabilità dell'allenamento ancorando le rappresentazioni interne del modello. Durante il CPT, le funzionalità apprese dal modello vengono modificate e la miscelazione dei dati fornisce gradienti provenienti da diverse fonti che guidano questo adattamento senza intoppi. Senza di essa, l'addestramento su distribuzioni ristrette può causare instabilità del gradiente, dove le rappresentazioni del modello cambiano troppo drasticamente, con conseguenti divergenze nell'addestramento, picchi di perdita o collasso delle capacità esistenti. Questo è il compromesso tra stabilità e plasticità: il modello deve essere sufficientemente plastico per apprendere nuove conoscenze di settore, ma abbastanza stabile da non rompere ciò che già conosce.

Funzionalità di mixaggio dei dati Nova CPT

L'accesso ai dati e ai checkpoint di pre-formazione di Amazon Nova è una delle offerte principali della personalizzazione CPT di Amazon Nova. La personalizzazione CPT di Amazon Nova consente di combinare facilmente i dati di dominio con il corpus di pre-formazione di Amazon Nova. Inoltre, è possibile modificare il rapporto di campionamento delle specifiche categorie di dati di Amazon Nova (ad esempio codice, matematica, ragionamento, ecc.) e controllarne le proporzioni per integrare i dati del dominio. Ciò consente di rafforzare le funzionalità in linea con il caso d'uso adattando al contempo il modello al dominio specifico.

Individuazione del rapporto di miscelazione ottimale

Il rapporto ottimale tra dati di Amazon Nova e dati di dominio dipende dal dominio, dalla complessità, dalle dimensioni, dalla qualità del set di dati e dall'importanza di mantenere le funzionalità generali. Questo rapporto deve essere scoperto attraverso la sperimentazione. Di seguito è riportato un framework sperimentale per decidere la quantità di dati Amazon Nova da combinare.

Seleziona un sottoinsieme rappresentativo di dati di dominio (ad esempio token 5B) e mantieni questo valore costante in tutte le esecuzioni sperimentali.

Esegui esperimenti CPT su piccola scala variando solo la quantità di dati Amazon Nova mescolati in:

  • Nessuna combinazione: dominio 100% → solo dominio 5B (totale 5B)

  • Miscelazione della luce: 90% dominio → dominio 5B + ~ 0,56 B Amazon Nova (totale ~ 5,56 B)

  • Miscelazione media: 70% dominio → dominio 5B + ~ 2,14 B Amazon Nova (totale ~ 7,14 B)

  • Mixaggio intensivo: 50% dominio → dominio 5B+5B Amazon Nova (totale 10 B)

Valuta ogni checkpoint nei benchmark di dominio in e in generale. Valuta anche il checkpoint di partenza (checkpoint Amazon Nova prima di qualsiasi formazione).

  • Le prestazioni del dominio del cliente rimangono all'incirca costanti durante le esecuzioni? Di solito dovrebbe succedere, poiché ogni esecuzione ha registrato lo stesso numero di token di dominio. Se le prestazioni del dominio migliorano con una maggiore miscelazione, i dati di Amazon Nova forniscono un'utile regolarizzazione.

  • I punteggi generali dei benchmark migliorano all'aumentare del mixaggio?

    • Il comportamento previsto è che le funzionalità generali dovrebbero migliorare in modo monotono man mano che vengono aggiunti più dati di Amazon Nova.

    • Misura diversi benchmark generali: MMLU (conoscenza generale), (codifica), GSM8 K HumanEval (matematica) o benchmark specifici di interesse.

  • Seleziona il rapporto di miscelazione che mantiene le prestazioni del dominio offrendo al contempo funzionalità generali accettabili per i casi d'uso. Tieni conto del costo aggiuntivo della formazione con una maggiore combinazione di dati.

Una volta identificato il rapporto di miscelazione ottimale, esegui un CPT su vasta scala utilizzando il set di dati completo del dominio con il rapporto di miscelazione selezionato.

Limitazioni

L'attuale CPT supporta solo dati di testo e non supporta alcun set di dati multimodale del cliente.