Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Valuta il tuo modello RFT
Una volta completato con successo il lavoro di messa a punto delle armature, è possibile valutare le prestazioni del modello personalizzato utilizzando diversi metodi di valutazione. Amazon Bedrock fornisce strumenti di valutazione integrati per aiutarti a confrontare il tuo modello RFT con il modello base e a convalidare i miglioramenti.
Argomenti
Metodi di valutazione
Amazon Bedrock offre diversi modi per valutare le prestazioni del modello RFT.
Metriche di convalida
Se carichi un set di dati di convalida, vedrai due grafici aggiuntivi nelle metriche di formazione.
-
Premi di convalida: mostra l'efficacia della generalizzazione del modello, oltre agli esempi di formazione. I punteggi più bassi rispetto ai premi di allenamento sono normali e previsti.
-
Durata degli episodi di convalida: durata media della risposta su dati di convalida non visualizzati. Mostra l'efficienza con cui il modello risponde ai nuovi input rispetto agli esempi di formazione.
Prova in Playground
Usa la funzione Test in Playground per valutazioni rapide e ad hoc. Per utilizzare la funzione Test in Playground, è necessario impostare l'inferenza. Per ulteriori informazioni, consulta Configurazione dell'inferenza per la valutazione.
Questo strumento interattivo consente di:
-
Testa le istruzioni direttamente con il tuo modello RFT
-
Confronta le risposte side-by-side tra il tuo modello personalizzato e il modello base
-
Valuta i miglioramenti della qualità della risposta in tempo reale
-
Sperimenta con diversi prompt per valutare le funzionalità del modello
Valutazione del modello Bedrock
Usa la valutazione del modello di Amazon Bedrock per valutare il tuo modello RFT utilizzando i tuoi set di dati. Ciò fornisce un'analisi completa delle prestazioni con metriche e benchmark standardizzati. Ecco alcuni esempi dei vantaggi della valutazione del modello Amazon Bedrock.
-
Valutazione sistematica utilizzando set di dati di test personalizzati
-
Confronti quantitativi delle prestazioni
-
Metriche standardizzate per una valutazione coerente
-
Integrazione con i flussi di lavoro di valutazione esistenti di Amazon Bedrock
Configurazione dell'inferenza per la valutazione
Prima di valutare il modello RFT, configurate l'inferenza utilizzando una di queste opzioni:
Inferenza on demand
Crea un modello personalizzato di implementazione su richiesta per una valutazione flessibile. pay-per-use Questa opzione include prezzi basati su token che vengono addebitati in base al numero di token elaborati durante l'inferenza.
Migliori pratiche di valutazione
-
Confrontate sistematicamente: valutate sempre il vostro modello RFT rispetto al modello base utilizzando le stesse istruzioni di test e gli stessi criteri di valutazione.
-
Utilizza diversi casi di test: includi vari tipi di prompt e scenari che rappresentano i tuoi casi d'uso reali.
-
Convalida l'allineamento delle ricompense: assicurati che i miglioramenti del modello siano in linea con le funzioni di ricompensa utilizzate durante l'allenamento.
-
Casi limite di test: valuta il comportamento del modello sulla base di input impegnativi o insoliti per valutarne la robustezza.
-
Monitora la coerenza della risposta: verifica che il modello offra una qualità costante su più esecuzioni con richieste simili.