Domanda e risposta per la valutazione del modello in Amazon Bedrock - Amazon Bedrock

Domanda e risposta per la valutazione del modello in Amazon Bedrock

Domanda e risposta vengono utilizzate per attività quali la generazione di risposte automatiche dall’help desk, il recupero di informazioni e l’e-learning. Se il testo utilizzato per addestrare il modello di fondazione contiene problemi quali dati incompleti o imprecisi, sarcasmo o ironia, la qualità delle risposte può peggiorare.

Importante

Per domanda e risposta esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo una valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l’uso con il tipo di attività domanda e risposta.

BoolQ

BoolQ è un set di dati composto da coppie di domanda e risposta sì/no. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l’uso con tipi di attività di domanda e risposta.

Natural questions

Natural questions è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.

TriviaQA

TriviaQA è un set di dati che contiene oltre 650.000 question-answer-evidence-triples. Questo set di dati viene utilizzato nelle attività di domanda e risposta.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. Per specificare correttamente i set di dati integrati disponibili utilizzando AWS CLI o un SDK AWS supportato, utilizzare i nomi dei parametri nella colonna Set di dati integrati (API).

Set di dati integrati disponibili per il tipo di attività di domanda e risposta in Amazon Bedrock
Tipo di attività Parametro Set di dati integrati (console) Set di dati integrati (API) Metrica calcolata
Domanda e risposta Accuratezza BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Robustezza BoolQ Builtin.BoolQ

F1 e deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Tossicità BoolQ Builtin.BoolQ Tossicità
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consultare Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock