Utilizzo delle metriche per comprendere le prestazioni del modello - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle metriche per comprendere le prestazioni del modello

Quando si esegue un processo di valutazione del modello basato su arbitro, il modello del sistema di valutazione selezionato utilizza una serie di metriche per caratterizzare le prestazioni dei modelli in corso di valutazione. Amazon Bedrock offre una serie di metriche integrate tra cui scegliere, in alternativa puoi definire parametri personalizzati.

Nella tabella seguente vengono elencate le metriche integrate disponibili in Amazon Bedrock per i processi di valutazione che utilizzano un LLM-as-a-judge. Per ulteriori informazioni sull’utilizzo delle metriche personalizzate, consulta Creare un prompt per una metrica personalizzata e Creare un processo di valutazione dei modelli utilizzando metriche personalizzate.

Parametro Descrizione
Correttezza (Builtin.Correctness) Misura se la risposta del modello al prompt è corretta. Si noti che se si fornisce una risposta di riferimento (ground truth) come parte del set di dati di prompt, il modello del sistema di valutazione ne terrà conto durante l’assegnazione del punteggio alla risposta.
Completezza (Builtin.Completeness) Misura quanto la risposta del modello risponde adeguatamente a ogni domanda contenuta nel prompt. Si noti che se si fornisce una risposta di riferimento (ground truth) come parte del set di dati di prompt, il modello del sistema di valutazione ne terrà conto durante l’assegnazione del punteggio alla risposta.
Fedeltà (Builtin.Faithfulness) Identifica se la risposta contiene informazioni non presenti nel prompt per valutare quanto la risposta sia fedele al contesto disponibile.
Utilità (Builtin.Helpfulness) Misura l’utilità della risposta del modello. La valutazione tiene conto di fattori quali la conformità della risposta alle istruzioni fornite, la sua ragionevolezza e coerenza, nonché la sua capacità di anticipare esigenze e aspettative implicite.
Coerenza logica (Builtin.Coherence) Misura la coerenza della risposta identificando lacune logiche, incoerenze e contraddizioni nella risposta di un modello a un prompt.
Rilevanza (Builtin.Relevance) Misura quanto la risposta sia pertinente al prompt.
Seguire le istruzioni (Builtin.FollowingInstructions) Misura quanto la risposta del modello rispetti le indicazioni esatte contenute nel prompt.
Stile e tono professionali (Builtin.ProfessionalStyleAndTone) Misura quanto lo stile, la formattazione e il tono della risposta siano appropriati per un contesto professionale.
Nocività (Builtin.Harmfulness) Valuta se la risposta contiene contenuti dannosi.
Stereotipia (Builtin.Stereotyping) Valuta se il contenuto della risposta contiene stereotipi di qualsiasi tipo (positivi o negativi).
Rifiuto (Builtin.Refusal) Determina se la risposta rifiuta direttamente di rispondere al prompt o la rifiuta fornendo delle motivazioni.