

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Valuta il tuo modello RFT
<a name="rft-evaluate-model"></a>

Una volta completato con successo il lavoro di messa a punto delle armature, è possibile valutare le prestazioni del modello personalizzato utilizzando diversi metodi di valutazione. Amazon Bedrock fornisce strumenti di valutazione integrati per aiutarti a confrontare il tuo modello RFT con il modello base e a convalidare i miglioramenti.

**Topics**
+ [Metodi di valutazione](#rft-evaluation-methods)
+ [Configurazione dell'inferenza per la valutazione](#rft-setup-inference-evaluation)
+ [Migliori pratiche di valutazione](#rft-evaluation-best-practices)

## Metodi di valutazione
<a name="rft-evaluation-methods"></a>

Amazon Bedrock offre diversi modi per valutare le prestazioni del modello RFT.

### Metriche di convalida
<a name="rft-validation-metrics"></a>

Se carichi un set di dati di convalida, vedrai due grafici aggiuntivi nelle metriche di formazione.
+ **Premi di convalida**: mostra l'efficacia della generalizzazione del modello, oltre agli esempi di formazione. I punteggi più bassi rispetto ai premi di allenamento sono normali e previsti.
+ Durata **degli episodi di convalida: durata** media della risposta su dati di convalida non visualizzati. Mostra l'efficienza con cui il modello risponde ai nuovi input rispetto agli esempi di formazione.

### Prova in Playground
<a name="rft-test-playground"></a>

Usa la funzione Test in Playground per valutazioni rapide e ad hoc. Per utilizzare la funzione Test in Playground, è necessario impostare l'inferenza. Per ulteriori informazioni, consulta [Configurazione dell'inferenza per la valutazione](#rft-setup-inference-evaluation).

Questo strumento interattivo consente di:
+ Testa le istruzioni direttamente con il tuo modello RFT
+ Confronta le risposte side-by-side tra il tuo modello personalizzato e il modello base
+ Valuta i miglioramenti della qualità della risposta in tempo reale
+ Sperimenta con diversi prompt per valutare le funzionalità del modello

### Valutazione del modello Bedrock
<a name="rft-model-evaluation"></a>

Usa la valutazione del modello di Amazon Bedrock per valutare il tuo modello RFT utilizzando i tuoi set di dati. Ciò fornisce un'analisi completa delle prestazioni con metriche e benchmark standardizzati. Ecco alcuni esempi dei vantaggi della valutazione del modello Amazon Bedrock.
+ Valutazione sistematica utilizzando set di dati di test personalizzati
+ Confronti quantitativi delle prestazioni
+ Metriche standardizzate per una valutazione coerente
+ Integrazione con i flussi di lavoro di valutazione esistenti di Amazon Bedrock

## Configurazione dell'inferenza per la valutazione
<a name="rft-setup-inference-evaluation"></a>

Prima di valutare il modello RFT, configurate l'inferenza utilizzando una di queste opzioni:

### Inferenza on demand
<a name="rft-on-demand-inference"></a>

Crea un modello personalizzato di implementazione su richiesta per una valutazione flessibile. pay-per-use Questa opzione include prezzi basati su token che vengono addebitati in base al numero di token elaborati durante l'inferenza.

## Migliori pratiche di valutazione
<a name="rft-evaluation-best-practices"></a>
+ **Confrontate sistematicamente**: valutate sempre il vostro modello RFT rispetto al modello base utilizzando le stesse istruzioni di test e gli stessi criteri di valutazione.
+ **Utilizza diversi casi di test**: includi vari tipi di prompt e scenari che rappresentano i tuoi casi d'uso reali.
+ **Convalida l'allineamento delle ricompense**: assicurati che i miglioramenti del modello siano in linea con le funzioni di ricompensa utilizzate durante l'allenamento.
+ **Casi limite di test**: valuta il comportamento del modello sulla base di input impegnativi o insoliti per valutarne la robustezza.
+ **Monitora la coerenza della risposta**: verifica che il modello offra una qualità costante su più esecuzioni con richieste simili.