Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crea e gestisci lavori di ottimizzazione per i modelli Amazon Nova
Puoi creare un job RFT (Reinforcement Fine-Tuning) utilizzando la console o l'API Amazon Bedrock. Il processo RFT può richiedere alcune ore a seconda delle dimensioni dei dati di allenamento, del numero di epoche e della complessità delle funzioni di ricompensa.
Prerequisiti
-
Crea un ruolo di servizio IAM con le autorizzazioni richieste. Per informazioni complete sulla sicurezza e sulle autorizzazioni, comprese le autorizzazioni specifiche per RFT, consulta. Accesso e sicurezza per i modelli Amazon Nova
-
(Facoltativo) Crittografa i dati di input e output, il job RFT o le richieste di inferenza effettuate su modelli personalizzati. Per ulteriori informazioni, consulta Crittografia dei modelli personalizzati.
Crea il tuo lavoro RFT
Scegli la scheda relativa al metodo che preferisci, quindi segui la procedura:
Monitora il tuo lavoro di formazione su RFT
Amazon Bedrock fornisce monitoraggio in tempo reale con grafici e metriche visive durante la formazione RFT. Queste metriche ti aiutano a capire se il modello converge correttamente e se la funzione di ricompensa guida efficacemente il processo di apprendimento.
Monitoraggio dello stato del lavoro
Puoi monitorare lo stato del tuo lavoro RFT attraverso le fasi di convalida e formazione nella console Amazon Bedrock.
Indicatori di completamento:
-
Lo stato del Job passa a Completato quando la formazione viene completata con successo
-
Il modello ARN personalizzato diventa disponibile per l'implementazione
-
Le metriche di formazione raggiungono le soglie di convergenza
Metriche di formazione in tempo reale
Amazon Bedrock fornisce il monitoraggio in tempo reale durante l'addestramento RFT con grafici visivi che mostrano i parametri di formazione e convalida.
Metriche di formazione di base
-
Perdita di formazione: misura l'efficacia dell'apprendimento del modello dai dati di addestramento
-
Statistiche sui premi di allenamento: mostra i punteggi di ricompensa assegnati dalle tue funzioni di ricompensa
-
Margine di ricompensa: misura la differenza tra premi di risposta positivi e negativi
-
Precisione dei set di addestramento e convalida: mostra le prestazioni del modello sia sui dati di addestramento che su quelli forniti
Categorie metriche dettagliate
Metriche dei premi:
critic/rewards/meancritic/rewards/max,critic/rewards/min(distribuzione dei premi) eval-score/rewards/mean@1(premi di convalida)Comportamento modello:
actor/entropy(variazione delle politiche; più alto equivale a più esplorativo)Integrità della formazione:
actor/pg_loss(perdita del gradiente delle policy),actor/pg_clipfrac(frequenza degli aggiornamenti interrotti) e (entità del gradiente)actor/grad_normCaratteristiche di risposta:
prompt_length/mean,prompt_length/max,prompt_length/min(statistiche sui token di input),response_length/meanresponse_length/max, (statistiche sui token di output) eresponse_length/minresponse/aborted_ratio(frequenza di generazione incompleta; 0 equivale a tutti i dati completati)Prestazioni:
perf/throughput(velocità di formazione),perf/time_per_step(tempo per fase di addestramento) etiming_per_token_ms/*(tempi di elaborazione per token)Utilizzo delle risorse:
perf/max_memory_allocated_gbperf/max_memory_reserved_gb(memoria GPU) eperf/cpu_memory_used_gb(memoria CPU)
Visualizzazione dei progressi dell'allenamento
La console mostra grafici interattivi che si aggiornano in tempo reale man mano che il lavoro RFT procede. Queste visualizzazioni possono aiutarti a:
-
Monitora la convergenza verso prestazioni ottimali
-
Identifica tempestivamente potenziali problemi di formazione
-
Determina i punti di sosta ottimali
-
Confronta le prestazioni in epoche diverse
Imposta l'inferenza
Dopo il completamento del lavoro, implementa il modello RFT per l'inferenza su richiesta o utilizza Provisioned Throughput per prestazioni coerenti. Per impostare l'inferenza, vedere. Impostazione dell’inferenza per un modello personalizzato
Usa Test in Playground per valutare e confrontare le risposte con il modello base. Per valutare il modello RFT completato, consulta. Valuta il tuo modello RFT